Hugging Face 旗下熱門的 Transformer 強化學習庫 TRL 正式迎來 v1.0 版本。此版本確立了穩定的 API 設計,並將定位聚焦於「後訓練(Post-Training)」生態系。TRL v1.0 整合了監督微調(SFT)、直接偏好優化(DPO)以及因 DeepSeek 爆紅的群體相對策略優化(GRPO)等主流對齊技術,旨在為開發者提供一個能與快速變革的 AI 領域並肩同行的標準化工具。
2025 年初的「DeepSeek 時刻」以超低訓練成本與強大推理能力震驚全球。一年過去,Hugging Face 回顧了這場變革對開源社群的深遠影響,包括 GRPO 強化學習演算法的普及、MoE 架構的廣泛應用,以及全球開發者如何擺脫對閉源巨頭的依賴,走向更自主、高效的本地部署與微調時代。這標誌著 AI 發展從「算力軍備競賽」走向「演算法與效率至上」的新紀元。
Hugging Face 的 TRL 團隊宣布與 LinkedIn 開源的 Liger Kernel 整合。此合作針對當前熱門的 GRPO(群體相對策略優化)演算法進行深度優化,能顯著降低訓練時的 GPU 顯存佔用並提升吞吐量。這讓開發者在訓練類似 DeepSeek-R1 的推理模型時,能用更低的硬體門檻實現更高效的強化學習微調。
Hugging Face 釋出 Open R1 專案的第四次技術更新。本階段重點在於提升 TRL 框架中 GRPO(群體相對策略最佳化)的訓練效率與記憶體最佳化,並釋出針對數學與程式碼推理的全新合成資料集。團隊分享了在 Qwen 與 Llama 模型上進行強化學習(RL)訓練的最新評測結果,為開源社群複製 DeepSeek-R1 的推理能力提供更完整的實踐指南。
Hugging Face 發表開源推理模型專案 Open R1 的第三次技術更新。本次更新重點在於釋出基於 Qwen/Llama 的全新推理模型,並詳細公開了使用 TRL 進行 GRPO(群體相對策略優化)的訓練細節。團隊成功解決了訓練中的「獎勵黑客」問題,並開源了完整的訓練數據集與配方,顯著降低了社群重現 DeepSeek-R1 推理能力的門檻。
Hugging Face 釋出 Open R1 專案的第二份進度報告。團隊分享了使用 TRL 庫中的 GRPO 演算法在 Llama-8B 與 Qwen-32B 上進行強化學習(RL)訓練的實戰經驗,成功重現了「頓悟時刻」與推理鏈。本次更新也詳細探討了格式控制、訓練穩定性及在 MATH、AIME 等基準測試上的最新評估數據。
Hugging Face 發表 Open-R1 專案的第一階段更新,旨在完全開源重現 DeepSeek-R1。團隊目前專注於利用 TRL 庫中的 GRPO 演算法進行強化學習訓練,並已釋出初步的訓練配方、資料集與評估結果。報告中也探討了推理模型訓練中常見的「獎勵作弊(Reward Hacking)」與格式控制等技術挑戰。
Hugging Face 宣布啟動 Open-R1 專案,目標是完全重現 DeepSeek-R1 的推理能力。該專案將開源所有訓練配方、資料集與模型權重,並利用 TRL 框架中的 GRPO 演算法進行強化學習。這項計畫將降低開發者構建高效推理模型的門檻,推動開源 AI 社群的推理模型民主化。