Hugging Face BlogMay 14, 2024, 12:00 AM重要 80

PaliGemma – Google's Cutting-Edge Open Vision Language Model

Google 推出開源視覺語言模型 PaliGemma,結合 SigLIP 與 Gemma,專為圖像問答、偵測與微調設計。

Google 發表全新開源視覺語言模型 PaliGemma,結合了 SigLIP 視覺編碼器與 Gemma-2B 語言模型。PaliGemma 具備強大的圖像描述、視覺問答(VQA)、物件偵測與 OCR 能力,並提供多種解析度版本。該模型已深度整合至 Hugging Face 生態系,非常適合開發者進行特定下游任務的微調。

想看英文原文 / 完整內容?

前往 Hugging Face Blog 原文 →

摘要由 AI 整理,以原文為準。