AI 研發團隊 Thinking Machines 推出全新原生互動模型「TML-Interaction-Small 276B-A12B」。該模型專為即時語音設計,擁有 276B 總參數與 12B 啟用參數。它不僅刷新了即時語音的技術前沿(SOTA),更透過原生互動機制,徹底取代了傳統的語音活動檢測(VAD)模組,實現更自然、無縫的雙向語音對話。
Hugging Face 深入解析 Transformer 中的混合專家模型 (MoE) 架構。MoE 透過稀疏門控網路將 Token 分流至特定「專家」FFN,實現「高總參數、低計算量」的優勢。本文探討其核心組件、訓練與推理挑戰(如 VRAM 佔用與路由失衡),是理解 Mixtral 與 DeepSeek 等主流模型的必讀指南。
在「DeepSeek 時刻」屆滿一週年之際,Hugging Face 發文探討中國開源 AI 生態系的技術演進。文章深入分析了中國各大 AI 團隊(如 Qwen、GLM、Yi 等)如何超越 DeepSeek 的既有框架,在混合專家模型(MoE)、多頭潛在注意力(MLA)以及強化學習(GRPO)等架構上進行抉擇與創新。這些技術選擇不僅是為了應對算力限制,更重塑了全球開源 AI 的高效率與低成本標準。
2025 年初的「DeepSeek 時刻」以超低訓練成本與強大推理能力震驚全球。一年過去,Hugging Face 回顧了這場變革對開源社群的深遠影響,包括 GRPO 強化學習演算法的普及、MoE 架構的廣泛應用,以及全球開發者如何擺脫對閉源巨頭的依賴,走向更自主、高效的本地部署與微調時代。這標誌著 AI 發展從「算力軍備競賽」走向「演算法與效率至上」的新紀元。
阿布達比技術創新研究所(TII)正式發布 Falcon 3 系列開源模型,提供 1B、3B、7B 及 10B MoE 等多種參數規格。Falcon 3 在多項基準測試中表現優異,其 7B 版本在性能上甚至超越了 Llama 3.1 8B 與 Gemma 2 9B。此系列模型對硬體友善,極適合邊緣運算與本地部署,並已深度整合至 Hugging Face 生態系統。
Snowflake 推出全新開源企業級大語言模型 Arctic,採用 MoE(混合專家)架構。Replicate 迅速跟進,提供託管 API 服務。開發者現在無需自行配置昂貴的 GPU 硬體,只需透過 Replicate 的 API 或 SDK,即可用極低的成本與簡單的程式碼,在雲端部署並運行這款強大的開源模型。
Segmind 發表 SegMoE 框架,借鑑 LLM 的混合專家(MoE)架構並將其應用於 Stable Diffusion 等擴散模型。該技術允許開發者將多個專門的 SDXL 專家模型合併為一個,並透過路由機制動態分配生成任務。此方法無需從頭訓練,即可結合不同風格模型的優勢,為影像生成帶來更高的靈活性與效率。
2023 年是開源大語言模型(LLM)的黃金時代。從 Meta 發布 LLaMA 奠定基礎,到 Mistral 推出高效的 MoE 模型,開源社群在模型架構、量化技術(QLoRA)與對齊方法(DPO)上取得突破。Hugging Face 的 Open LLM Leaderboard 更成為推動這波開源浪潮的核心樞紐,縮短了開源與閉源模型之間的差距。
Mistral AI 發表全新混合專家(MoE)模型 Mixtral 8x7B,總參數 46.7B 但每次 token 僅啟用 12.9B,速度極快。其在多項基準測試中超越 Llama 2 70B 及 GPT-3.5,並支援 32k 脈絡長度。Hugging Face 已於 Transformers、TGI 及推理終端全面整合,並採 Apache 2.0 開源授權。
本指南深入解析混合專家模型(MoE)的核心技術。MoE 透過門控網路(Router)將輸入 token 分流至不同的專家網路(FFN),實現「高參數量、低計算量」的優勢。文中探討了 MoE 的歷史、訓練挑戰(如負載均衡與記憶體佔用),以及如何高效部署與微調此類模型。