Fast Inference on Large Language Models: BLOOMZ on Habana Gaudi2 Accelerator
Hugging Face Blog·1162d ago·Tutorial
Hugging Face 與 Intel 合作,展示在 Habana Gaudi2 晶片上運行 1760 億參數的大型語言模型 BLOOMZ 的推理表現。
透過 optimum-habana 整合,開發者只需修改幾行程式碼,即可在 Gaudi2 上輕鬆部署並加速 LLM。
基準測試顯示 Gaudi2 在處理超大型模型時,展現出超越 NVIDIA A100 的優異吞吐量與低延遲,為企業提供極具性價比的替代方案。