Hugging Face BlogFeb 2, 2025, 12:04 AM重要 85

Open-R1: Update #1

Hugging Face 釋出 Open-R1 專案首個進度報告,分享使用 GRPO 演算法重現 DeepSeek-R1 推理模型的進展與挑戰。

Hugging Face 發表 Open-R1 專案的第一階段更新,旨在完全開源重現 DeepSeek-R1。團隊目前專注於利用 TRL 庫中的 GRPO 演算法進行強化學習訓練,並已釋出初步的訓練配方、資料集與評估結果。報告中也探討了推理模型訓練中常見的「獎勵作弊(Reward Hacking)」與格式控制等技術挑戰。

想看英文原文 / 完整內容?

前往 Hugging Face Blog 原文 →

摘要由 AI 整理,以原文為準。