Hugging Face BlogJul 10, 2024, 12:00 AM重要 75

Preference Optimization for Vision Language Models

Hugging Face 介紹如何使用 TRL 庫對視覺語言模型(VLM)進行直接偏好最佳化(DPO),以減少幻覺並提升回答品質。

Hugging Face 發布技術指南,介紹如何將直接偏好最佳化(DPO)應用於視覺語言模型(VLM)。透過 TRL(Transformer Reinforcement Learning)庫,開發者可以輕鬆對 Idefics2 等多模態模型進行對齊訓練。此方法能有效減少 VLM 常見的「幻覺」問題,並顯著提升模型在視覺問答任務中的表現與人類偏好一致性。

想看英文原文 / 完整內容?

前往 Hugging Face Blog 原文 →

摘要由 AI 整理,以原文為準。