Hugging Face BlogJan 20, 2026, 3:20 AM重要 80

Differential Transformer V2

Microsoft 推出 Differential Transformer V2,優化差分注意力機制,顯著降低計算開銷並提升長文本去噪能力。

Microsoft 於 Hugging Face 發表 Differential Transformer V2(Diff-Transformer V2)。延續 V1 透過雙注意力地圖相減來消除雜訊的設計,V2 重點解決了計算與記憶體開銷問題。新版本引入了高度優化的 CUDA 核心與 FlashAttention 整合,並釋出預訓練模型與 Hugging Face 整合,讓開發者能以更低成本部署具備強大長文本與抗噪能力的模型。

想看英文原文 / 完整內容?

前往 Hugging Face Blog 原文 →

摘要由 AI 整理,以原文為準。