Hugging Face BlogFeb 19, 2025, 12:00 AM重要 80
PaliGemma 2 Mix - New Instruction Vision Language Models by Google
Google 推出 PaliGemma 2 Mix 系列模型,為基於 Gemma 2 的全新開源指令微調視覺語言模型(VLM)。
Google 與 Hugging Face 合作推出了 PaliGemma 2 Mix 系列模型。這是專為指令遵循(Instruction-following)設計的輕量級視覺語言模型(VLM),結合了 SigLIP 視覺編碼器與 Gemma 2 語言解碼器。 PaliGemma 2 Mix 提供多種參數大小(包含 3B、10B 與 28B),並在多種視覺問答、圖像描述及目標檢測等任務上進行了混合微調,開箱即可展現優異的多模態理解能力。 開發者可直接在 Hugging Face 上取得權重,並透過 Transformers 庫輕鬆進行部署與微調。
想看英文原文 / 完整內容?
前往 Hugging Face Blog 原文 →摘要由 AI 整理,以原文為準。