本文介紹了 Hugging Face 提出的 LAVE(LLM 輔助 VQA 評估)方法,並在巨型文檔問答資料集 Docmatix 上進行測試。傳統評估指標(如 ANLS)因過於嚴格而不利於 Zero-shot 模型,而 LAVE 利用 LLM 作為裁判,能更公正地評估模型。結果顯示,雖然強大 LLM 的 Zero-shot 能力顯著,但在特定文檔理解任務中,微調(Fine-tuning)依然是提升中小型模型性能的關鍵。
Hugging Face 宣布正式支援 Salesforce 開源的 BLIP-2 視覺語言模型。BLIP-2 透過輕量化的 Q-Former 橋接現成且凍結的圖像編碼器與大型語言模型(LLM),大幅降低訓練成本。此模型在零樣本圖像描述、視覺問答(VQA)等任務上表現優異,開發者現在可直接透過 Transformers 庫輕鬆調用。