Hugging Face 旗下熱門的 Transformer 強化學習庫 TRL 正式迎來 v1.0 版本。此版本確立了穩定的 API 設計,並將定位聚焦於「後訓練(Post-Training)」生態系。TRL v1.0 整合了監督微調(SFT)、直接偏好優化(DPO)以及因 DeepSeek 爆紅的群體相對策略優化(GRPO)等主流對齊技術,旨在為開發者提供一個能與快速變革的 AI 領域並肩同行的標準化工具。
Hugging Face 宣布與 RapidFire AI 合作,在 TRL(Transformer Reinforcement Learning)庫中實現高達 20 倍的微調加速。TRL 是用於 LLM 對齊(如 DPO、PPO)的核心工具,此次整合透過最佳化訓練流程與算子,顯著降低了強化學習微調的時間與算力成本,讓開發者能更高效地進行模型對齊。
Hugging Face 旗下的 TRL(Transformer Reinforcement Learning)套件迎來重大更新,正式支援視覺語言模型(VLM)的對齊訓練。開發者現在可以直接使用 DPOTrainer 或 ORPOTrainer 來處理包含圖像與文字的偏好資料集。此更新簡化了 LLaVA、PaliGemma 等主流多模態模型的微調流程,並支援 QLoRA 與 DeepSpeed 等顯存優化技術,大幅降低了 VLM 對齊的門檻。
Hugging Face 宣布推出由社群共同協作完成的文字生成圖像(Text-to-Image)開源偏好資料集。該資料集透過社群成員對不同 AI 生成圖像進行投票與評分,收集了大量人類真實偏好數據。這項開源資源將大幅降低開發者進行圖像生成模型 RLHF(人類回饋強化學習)或 DPO(直接偏好優化)的門檻,推動更具美感與對齊能力的開源圖像模型發展。
Hugging Face 發布技術指南,介紹如何將直接偏好最佳化(DPO)應用於視覺語言模型(VLM)。透過 TRL(Transformer Reinforcement Learning)庫,開發者可以輕鬆對 Idefics2 等多模態模型進行對齊訓練。此方法能有效減少 VLM 常見的「幻覺」問題,並顯著提升模型在視覺問答任務中的表現與人類偏好一致性。
本文探討如何使用開源大型語言模型實作「憲政 AI(Constitutional AI)」。這項技術由 Anthropic 提出,透過一組「憲法」原則讓 AI 自我監督與修正輸出(RLAIF)。Hugging Face 展示了利用 TRL 函式庫與 DPO 等開源工具,如何不需大量人類標註,也能訓練出既安全又實用的開源模型。
本指南介紹了如何利用 Hugging Face 的 TRL 函式庫進行 LLM 的偏好微調。傳統的 RLHF 需要訓練獎勵模型並使用複雜的 PPO 演算法,而 DPO(直接偏好最佳化)及其變體(IPO、KTO)能直接在偏好數據上進行訓練,大幅簡化了對齊流程。文章詳細說明了這些方法的原理、數據格式要求以及實際程式碼實作。
2023 年是開源大語言模型(LLM)的黃金時代。從 Meta 發布 LLaMA 奠定基礎,到 Mistral 推出高效的 MoE 模型,開源社群在模型架構、量化技術(QLoRA)與對齊方法(DPO)上取得突破。Hugging Face 的 Open LLM Leaderboard 更成為推動這波開源浪潮的核心樞紐,縮短了開源與閉源模型之間的差距。
Hugging Face 釋出實用教學,介紹如何利用 TRL(Transformer Reinforcement Learning)庫中的 DPOTrainer,以「直接偏好優化(DPO)」技術微調 Llama 2。DPO 是一種替代傳統 RLHF 的新穎方法,它不需要訓練獨立的獎勵模型,也不需要複雜的 PPO 強化學習階段,僅需透過人類偏好數據(滿意與不滿意的回答對)即可直接優化模型,大幅降低了對齊(Alignment)的門檻與運算資源。