Hugging Face BlogMar 11, 2025, 8:40 PM重要 85

Open R1: Update #3

Hugging Face 發布 Open R1 第三次更新,釋出全新開源推理模型、優化後的 GRPO 訓練配方與數據集。

Hugging Face 發表開源推理模型專案 Open R1 的第三次技術更新。本次更新重點在於釋出基於 Qwen/Llama 的全新推理模型,並詳細公開了使用 TRL 進行 GRPO(群體相對策略優化)的訓練細節。團隊成功解決了訓練中的「獎勵黑客」問題,並開源了完整的訓練數據集與配方,顯著降低了社群重現 DeepSeek-R1 推理能力的門檻。

想看英文原文 / 完整內容?

前往 Hugging Face Blog 原文 →

摘要由 AI 整理,以原文為準。