Hugging Face BlogSep 29, 2023, 12:00 AM重要 75
Finetune Stable Diffusion Models with DDPO via TRL
Hugging Face 的 TRL 整合 DDPO 演算法,支援利用強化學習與自訂獎勵函數微調 Stable Diffusion 模型。
Hugging Face 宣布在其 TRL(Transformer Reinforcement Learning)庫中支援 DDPO(去噪擴散策略優化)演算法。這項更新允許開發者與研究人員使用強化學習(RL)來微調 Stable Diffusion 等擴散模型。透過自訂的獎勵函數(如美學評分或提示詞對齊度),DDPO 能有效引導模型生成更符合特定目標的圖像,解決了傳統監督式微調難以優化複雜指標的痛點。
想看英文原文 / 完整內容?
前往 Hugging Face Blog 原文 →摘要由 AI 整理,以原文為準。