Hugging Face BlogMar 31, 2026, 12:00 AM重要 85

TRL v1.0: Post-Training Library Built to Move with the Field

Hugging Face 正式發布 TRL v1.0,提供穩定且高效的後訓練(Post-Training)統一框架,支援 SFT、DPO 及熱門的 GRPO 等對齊演算法。

Hugging Face 旗下熱門的 Transformer 強化學習庫 TRL 正式迎來 v1.0 版本。此版本確立了穩定的 API 設計,並將定位聚焦於「後訓練(Post-Training)」生態系。TRL v1.0 整合了監督微調(SFT)、直接偏好優化(DPO)以及因 DeepSeek 爆紅的群體相對策略優化(GRPO)等主流對齊技術,旨在為開發者提供一個能與快速變革的 AI 領域並肩同行的標準化工具。

想看英文原文 / 完整內容?

前往 Hugging Face Blog 原文 →

摘要由 AI 整理,以原文為準。