Hugging Face 宣布其文字生成推理(TGI)框架現已整合 Intel Gaudi 加速器後端。這項合作讓開發者能直接在 Intel Gaudi 2 和 Gaudi 3 晶片上部署高效能 LLM,並享有連續批處理(Continuous Batching)與張量並行(Tensor Parallelism)等優化技術。此舉為企業在 NVIDIA 之外,提供了一個極具成本效益且易於部署的 AI 推理硬體新選擇。
本文介紹在 Intel Gaudi 2 加速器上運行蛋白質語言模型 ProtST 的優化方案。ProtST 結合了蛋白質序列與生物醫學文本,是生醫領域的重要模型。透過 Hugging Face 的 Optimum Habana 整合,開發者與研究人員能輕鬆在 Gaudi 2 上實現高效能的蛋白質任務處理,提供 NVIDIA 之外的高性價比硬體選擇。
Hugging Face 宣布在 Intel Gaudi 晶片上支援「輔助生成」(Assisted Generation,即投機解碼)。此技術透過小型草稿模型預測 Token,再由大型目標模型進行並行驗證,能顯著降低延遲並提高吞吐量。這項更新整合至 Optimum Habana 庫中,讓開發者能在 Gaudi 硬體上更高效地部署 LLM。
Hugging Face 宣布在 optimum-habana 中支援文字生成 Pipeline,使開發者能輕鬆在 Intel Gaudi 2 AI 加速器上部署大語言模型。此更新簡化了程式碼,並針對 Gaudi 2 硬體進行優化,提供極佳的推理效能與性價比,是 NVIDIA GPU 之外的強大替代方案。
Hugging Face 與 Intel 合作,展示在 Habana Gaudi2 晶片上運行 1760 億參數的大型語言模型 BLOOMZ 的推理表現。 透過 optimum-habana 整合,開發者只需修改幾行程式碼,即可在 Gaudi2 上輕鬆部署並加速 LLM。 基準測試顯示 Gaudi2 在處理超大型模型時,展現出超越 NVIDIA A100 的優異吞吐量與低延遲,為企業提供極具性價比的替代方案。