Hugging Face BlogJan 16, 2025, 12:00 AM重要 85
Introducing multi-backends (TRT-LLM, vLLM) support for Text Generation Inference
Hugging Face TGI 推出多後端支援,整合 TensorRT-LLM 與 vLLM,讓開發者在享有 TGI 生產級功能的同時,自由切換高效能推理引擎。
Hugging Face 的 Text Generation Inference (TGI) 宣布支援多後端架構,正式整合 NVIDIA TensorRT-LLM 與 vLLM。這項更新讓開發者無需在 TGI 的生產級功能(如 Tokenizer、工具調用、安全防護)與其他引擎的極致效能之間做抉擇。現在,用戶可以透過簡單的設定,直接在 TGI 中調用 TRT-LLM 的硬體優化或 vLLM 的高吞吐量優勢。
想看英文原文 / 完整內容?
前往 Hugging Face Blog 原文 →摘要由 AI 整理,以原文為準。