Hugging Face BlogJun 4, 2024, 12:00 AM

Faster assisted generation support for Intel Gaudi

Hugging Face 宣布 Intel Gaudi 加速器支援輔助生成(投機解碼),大幅提升大語言模型推理速度。

Hugging Face 宣布在 Intel Gaudi 晶片上支援「輔助生成」(Assisted Generation,即投機解碼)。此技術透過小型草稿模型預測 Token,再由大型目標模型進行並行驗證,能顯著降低延遲並提高吞吐量。這項更新整合至 Optimum Habana 庫中,讓開發者能在 Gaudi 硬體上更高效地部署 LLM。

想看英文原文 / 完整內容?

前往 Hugging Face Blog 原文 →

摘要由 AI 整理,以原文為準。