Allen Institute for AI (AI2) 近期推出 OLMo Hybrid 模型,引發對未來 LLM 架構的廣泛討論。本文深入分析混合架構(如結合 Transformer 與狀態空間模型 SSM/Mamba)在提升效率與長文本處理上的潛力。同時,探討了開源社群在後訓練(Post-training)工具上的最新進展,指出開源生態正逐步縮小與閉源頂尖模型在對齊與強化學習上的差距。
Hugging Face 聯合普林斯頓大學、Together AI 等機構,正式開源了「Bamba-9B」模型。該模型採用 Mamba-2 狀態空間模型(SSM)與 Transformer 注意力機制的混合架構(1:7 比例)。在保有與同量級純 Transformer 模型(如 Llama 3)相當性能的同時,顯著降低了長文本推論時的記憶體佔用與延遲,並以 Apache 2.0 協議開源,為長文本應用提供高效的新選擇。
阿布達比技術創新研究所(TII)推出 Falcon Mamba 7B,這是首個在效能上能與主流 Transformer 抗衡的無注意力機制(Attention-free)模型。基於 Mamba 狀態空間模型(SSM)架構,它在處理極長文本時具有記憶體佔用恆定與推論速度極快的優勢,並以 Apache 2.0 協議開源。