Hugging Face BlogMay 25, 2025, 12:00 AM重要 82
🐯 Liger GRPO meets TRL
Hugging Face TRL 正式整合 Liger Kernel,讓 DeepSeek-R1 的 GRPO 強化學習訓練更省顯存、速度更快!
Hugging Face 的 TRL 團隊宣布與 LinkedIn 開源的 Liger Kernel 整合。此合作針對當前熱門的 GRPO(群體相對策略優化)演算法進行深度優化,能顯著降低訓練時的 GPU 顯存佔用並提升吞吐量。這讓開發者在訓練類似 DeepSeek-R1 的推理模型時,能用更低的硬體門檻實現更高效的強化學習微調。
想看英文原文 / 完整內容?
前往 Hugging Face Blog 原文 →摘要由 AI 整理,以原文為準。