Hugging Face BlogMar 26, 2025, 6:47 PM重要 85

Open R1: Update #4

Hugging Face 發布 Open R1 專案第四階段更新,聚焦於優化 GRPO 訓練效率、釋出全新推理資料集,並分享開源模型強化學習實踐。

Hugging Face 釋出 Open R1 專案的第四次技術更新。本階段重點在於提升 TRL 框架中 GRPO(群體相對策略最佳化)的訓練效率與記憶體最佳化,並釋出針對數學與程式碼推理的全新合成資料集。團隊分享了在 Qwen 與 Llama 模型上進行強化學習(RL)訓練的最新評測結果,為開源社群複製 DeepSeek-R1 的推理能力提供更完整的實踐指南。

想看英文原文 / 完整內容?

前往 Hugging Face Blog 原文 →

摘要由 AI 整理,以原文為準。