Hugging Face BlogMar 11, 2025, 8:40 PM重要 85
Open R1: Update #3
Hugging Face 發布 Open R1 第三次更新,釋出全新開源推理模型、優化後的 GRPO 訓練配方與數據集。
Hugging Face 發表開源推理模型專案 Open R1 的第三次技術更新。本次更新重點在於釋出基於 Qwen/Llama 的全新推理模型,並詳細公開了使用 TRL 進行 GRPO(群體相對策略優化)的訓練細節。團隊成功解決了訓練中的「獎勵黑客」問題,並開源了完整的訓練數據集與配方,顯著降低了社群重現 DeepSeek-R1 推理能力的門檻。
想看英文原文 / 完整內容?
前往 Hugging Face Blog 原文 →摘要由 AI 整理,以原文為準。