Hugging Face BlogJun 12, 2024, 12:00 AM重要 80
Putting RL back in RLHF
Hugging Face 於 TRL 引入 RLOO 演算法,免除 PPO 的 Critic 網路,大幅降低 RLHF 的記憶體需求與複雜度。
近年 DPO 等直接對齊方法因免去強化學習(RL)的複雜度而大受歡迎,但線上 RL 仍有其獨特優勢。Hugging Face 發表部落格介紹在 TRL 庫中實現的 RLOO(REINFORCE Leave-One-Out)演算法。RLOO 透過生成多個樣本並計算「留一法」基準值來降低變異數,不僅免去了 PPO 龐大的 Critic 網路、節省顯存,還能達到與 PPO 相當甚至更好的對齊效果,讓線上 RL 重新成為實用選擇。
想看英文原文 / 完整內容?
前往 Hugging Face Blog 原文 →摘要由 AI 整理,以原文為準。