Hugging Face BlogDec 5, 2024, 12:00 AM重要 80

Welcome PaliGemma 2 – New vision language models by Google

Google 推出 PaliGemma 2 視覺語言模型,結合 SigLIP 與 Gemma 2,提供 3B、10B 與 28B 三種尺寸。

Google 發表全新一代輕量級視覺語言模型 PaliGemma 2,基於 SigLIP 視覺編碼器與 Gemma 2 文本解碼器。本次釋出包含 3B、10B 與 28B 三種參數規模,並提供多種輸入解析度(最高達 896x896)。PaliGemma 2 在圖像描述、視覺問答、目標檢測與文件理解等任務上表現優異,且已全面整合至 Hugging Face 生態系,支援快速微調與部署。

想看英文原文 / 完整內容?

前往 Hugging Face Blog 原文 →

摘要由 AI 整理,以原文為準。