Hugging Face BlogJan 20, 2026, 3:20 AM重要 80
Differential Transformer V2
Microsoft 推出 Differential Transformer V2,優化差分注意力機制,顯著降低計算開銷並提升長文本去噪能力。
Microsoft 於 Hugging Face 發表 Differential Transformer V2(Diff-Transformer V2)。延續 V1 透過雙注意力地圖相減來消除雜訊的設計,V2 重點解決了計算與記憶體開銷問題。新版本引入了高度優化的 CUDA 核心與 FlashAttention 整合,並釋出預訓練模型與 Hugging Face 整合,讓開發者能以更低成本部署具備強大長文本與抗噪能力的模型。
想看英文原文 / 完整內容?
前往 Hugging Face Blog 原文 →摘要由 AI 整理,以原文為準。