Hugging Face BlogJan 16, 2025, 12:00 AM重要 85

Introducing multi-backends (TRT-LLM, vLLM) support for Text Generation Inference

Hugging Face TGI 推出多後端支援,整合 TensorRT-LLM 與 vLLM,讓開發者在享有 TGI 生產級功能的同時,自由切換高效能推理引擎。

Hugging Face 的 Text Generation Inference (TGI) 宣布支援多後端架構,正式整合 NVIDIA TensorRT-LLM 與 vLLM。這項更新讓開發者無需在 TGI 的生產級功能(如 Tokenizer、工具調用、安全防護)與其他引擎的極致效能之間做抉擇。現在,用戶可以透過簡單的設定,直接在 TGI 中調用 TRT-LLM 的硬體優化或 vLLM 的高吞吐量優勢。

想看英文原文 / 完整內容?

前往 Hugging Face Blog 原文 →

摘要由 AI 整理,以原文為準。