Hugging Face BlogJul 18, 2024, 12:00 AM重要 80

TGI Multi-LoRA: Deploy Once, Serve 30 Models

Hugging Face TGI 推出 Multi-LoRA 功能,只需部署一個基礎模型,即可高效、低成本地同時運行 30 個微調模型。

Hugging Face 的 Text Generation Inference (TGI) 推出 Multi-LoRA 服務功能。開發者只需在 GPU 上部署一個基礎模型(如 Llama 3),就能動態載入並同時運行多達 30 個不同的 LoRA 微調適配器(Adapters)。這項技術大幅降低了多模型部署的 GPU 顯存與硬體成本,並透過優化的批處理技術確保低延遲,是 LLMOps 領域的重大優化。

想看英文原文 / 完整內容?

前往 Hugging Face Blog 原文 →

摘要由 AI 整理,以原文為準。