Hugging Face BlogDec 5, 2023, 12:00 AM重要 80
Optimum-NVIDIA Unlocking blazingly fast LLM inference in just 1 line of code
Hugging Face 推出 Optimum-NVIDIA,整合 TensorRT-LLM,讓開發者只需修改一行程式碼即可大幅提升 LLM 推理速度。
Hugging Face 與 NVIDIA 合作推出 Optimum-NVIDIA 庫,旨在簡化 TensorRT-LLM 的使用門檻。開發者只需將原本的 Transformers 模型載入程式碼替換為 Optimum-NVIDIA 的對應類別,即可在 NVIDIA GPU 上獲得極致的推理加速與顯存優化,並支援 FP8 等低精度量化。
想看英文原文 / 完整內容?
前往 Hugging Face Blog 原文 →摘要由 AI 整理,以原文為準。