Hugging Face 介紹了在 transformers 庫中實現的「動態投機(Dynamic Speculation)」技術。傳統的輔助生成(Assisted Generation)使用固定長度的草稿 Token 進行驗證,而動態投機則會根據草稿模型的即時接受率,動態調整預測長度(K 值)。這項改進能在不犧牲生成品質的前提下,顯著減少不必要的計算並提升推理速度,讓開發者更輕鬆地優化 LLM 部署。
Hugging Face 宣布在 Intel Gaudi 晶片上支援「輔助生成」(Assisted Generation,即投機解碼)。此技術透過小型草稿模型預測 Token,再由大型目標模型進行並行驗證,能顯著降低延遲並提高吞吐量。這項更新整合至 Optimum Habana 庫中,讓開發者能在 Gaudi 硬體上更高效地部署 LLM。