Hugging Face BlogFeb 10, 2025, 4:10 PM重要 85
Open R1: Update #2
Hugging Face 發布 Open R1 第二階段更新,分享使用 GRPO 訓練 Llama 與 Qwen 模型複製 DeepSeek-R1 推理能力的最新進展。
Hugging Face 釋出 Open R1 專案的第二份進度報告。團隊分享了使用 TRL 庫中的 GRPO 演算法在 Llama-8B 與 Qwen-32B 上進行強化學習(RL)訓練的實戰經驗,成功重現了「頓悟時刻」與推理鏈。本次更新也詳細探討了格式控制、訓練穩定性及在 MATH、AIME 等基準測試上的最新評估數據。
想看英文原文 / 完整內容?
前往 Hugging Face Blog 原文 →摘要由 AI 整理,以原文為準。