Hugging Face 釋出 Open R1 專案的第四次技術更新。本階段重點在於提升 TRL 框架中 GRPO(群體相對策略最佳化)的訓練效率與記憶體最佳化,並釋出針對數學與程式碼推理的全新合成資料集。團隊分享了在 Qwen 與 Llama 模型上進行強化學習(RL)訓練的最新評測結果,為開源社群複製 DeepSeek-R1 的推理能力提供更完整的實踐指南。
Hugging Face 發表指南,介紹如何利用 LM Studio 在本機運行 Open R1 計畫的 OlympicCoder 模型。OlympicCoder 是專為程式設計與推理優化的開源模型。透過本機部署,開發者無需將程式碼上傳至雲端,即可享受媲美頂級商用模型的程式碼生成與除錯能力,兼顧隱私與效能。
Hugging Face 發表開源推理模型專案 Open R1 的第三次技術更新。本次更新重點在於釋出基於 Qwen/Llama 的全新推理模型,並詳細公開了使用 TRL 進行 GRPO(群體相對策略優化)的訓練細節。團隊成功解決了訓練中的「獎勵黑客」問題,並開源了完整的訓練數據集與配方,顯著降低了社群重現 DeepSeek-R1 推理能力的門檻。
Hugging Face 釋出 Open R1 專案的第二份進度報告。團隊分享了使用 TRL 庫中的 GRPO 演算法在 Llama-8B 與 Qwen-32B 上進行強化學習(RL)訓練的實戰經驗,成功重現了「頓悟時刻」與推理鏈。本次更新也詳細探討了格式控制、訓練穩定性及在 MATH、AIME 等基準測試上的最新評估數據。
Hugging Face 的 open-r1 專案推出全新實作教學,旨在重現 DeepSeek-R1 最著名的「頓悟時刻」(自我糾錯能力)。本教學以經典的「倒數遊戲」(Countdown Game)為任務,引導讀者使用強化學習(RL)訓練小模型。透過設計精準的規則與格式獎勵,開發者能親眼見證模型在思考過程中自動發現錯誤並進行修正,是理解 R1 推理機制與 GRPO 演算法絕佳的低成本實作教材。