Hugging Face BlogAug 7, 2025, 12:00 AM重要 80

Vision Language Model Alignment in TRL ⚡️

Hugging Face TRL 庫正式支援視覺語言模型(VLM)對齊,開發者可輕鬆使用 DPO 和 ORPO 進行多模態偏好微調。

Hugging Face 旗下的 TRL(Transformer Reinforcement Learning)套件迎來重大更新,正式支援視覺語言模型(VLM)的對齊訓練。開發者現在可以直接使用 DPOTrainer 或 ORPOTrainer 來處理包含圖像與文字的偏好資料集。此更新簡化了 LLaVA、PaliGemma 等主流多模態模型的微調流程,並支援 QLoRA 與 DeepSpeed 等顯存優化技術,大幅降低了 VLM 對齊的門檻。

想看英文原文 / 完整內容?

前往 Hugging Face Blog 原文 →

摘要由 AI 整理,以原文為準。