Hugging Face BlogFeb 15, 2023, 12:00 AM重要 75

Zero-shot image-to-text generation with BLIP-2

Hugging Face 宣布整合 Salesforce 的 BLIP-2 模型,透過創新的 Q-Former 連接凍結的圖像與語言模型,實現高效的零樣本圖轉文。

Hugging Face 宣布正式支援 Salesforce 開源的 BLIP-2 視覺語言模型。BLIP-2 透過輕量化的 Q-Former 橋接現成且凍結的圖像編碼器與大型語言模型(LLM),大幅降低訓練成本。此模型在零樣本圖像描述、視覺問答(VQA)等任務上表現優異,開發者現在可直接透過 Transformers 庫輕鬆調用。

想看英文原文 / 完整內容?

前往 Hugging Face Blog 原文 →

摘要由 AI 整理,以原文為準。