Hugging Face 深入解析 Transformer 中的混合專家模型 (MoE) 架構。MoE 透過稀疏門控網路將 Token 分流至特定「專家」FFN,實現「高總參數、低計算量」的優勢。本文探討其核心組件、訓練與推理挑戰(如 VRAM 佔用與路由失衡),是理解 Mixtral 與 DeepSeek 等主流模型的必讀指南。
Hugging Face 宣布與極速微調工具 Unsloth 合作,推出免費的 AI 模型訓練方案。使用者可以透過 Hugging Face Jobs 平台,直接在雲端免費運行 Unsloth 的高效微調任務。這項合作大幅降低了個人開發者與研究人員微調 Llama 3、Gemma 等開源大模型的門檻與成本。
Hugging Face 宣布將其廣受歡迎的經典「NLP 課程(NLP Course)」正式轉型並升級為「LLM 課程(LLM Course)」。這項轉變反映了 AI 領域從傳統 NLP(如 BERT、分類與命名實體識別)向大語言模型(如 Llama、生成式 AI、RAG 與 Agent)的典範轉移。新課程將全面更新,涵蓋現代 LLM 架構、微調(PEFT/LoRA)、對齊(RLHF/DPO)及應用開發,繼續提供免費且高品質的開源學習資源。
Hugging Face 釋出深度科普文章,帶領讀者從零開始設計 Transformer 的位置編碼。文章從傳統絕對位置編碼(APE)的缺陷出發,指出其無法應對長文本外推的痛點,進而引入相對位置編碼(RPE)的概念。最終,透過簡單的複數與 2D 旋轉矩陣,一步步推導出當前主流大模型(如 Llama、Mistral)標配的 RoPE(旋轉位置編碼),證明這項最先進技術其實符合直覺且人人都能推導出來。
本指南深入解析混合專家模型(MoE)的核心技術。MoE 透過門控網路(Router)將輸入 token 分流至不同的專家網路(FFN),實現「高參數量、低計算量」的優勢。文中探討了 MoE 的歷史、訓練挑戰(如負載均衡與記憶體佔用),以及如何高效部署與微調此類模型。