Hugging Face BlogMay 11, 2023, 12:00 AM重要 85

Assisted Generation: a new direction toward low-latency text generation

Hugging Face 推出「輔助生成」技術,利用小模型預測、大模型驗證,在不犧牲品質下大幅降低 LLM 推理延遲。

Hugging Face 發表「輔助生成(Assisted Generation)」技術(即投機解碼),旨在解決 LLM 自迴歸生成速度慢的痛點。該技術透過一個體積小、速度快的「輔助模型」預先生成候選 Token,再由「目標大模型」進行單次並行驗證。此方法在不降低輸出品質的前提下,能將生成速度提升高達 2 至 3 倍,為低延遲文本生成開闢了新路徑。

想看英文原文 / 完整內容?

前往 Hugging Face Blog 原文 →

摘要由 AI 整理,以原文為準。