Hugging Face BlogFeb 21, 2025, 12:00 AM重要 80
SigLIP 2: A better multilingual vision language encoder
Google 推出全新 SigLIP 2 視覺語言模型,顯著提升多語言能力、動態解析度與密集預測任務表現。
Google 與 Hugging Face 聯合發表 SigLIP 2 視覺語言編碼器。作為經典 SigLIP 的升級版,SigLIP 2 引入了動態解析度、自監督學習(SSL)輔助任務與更強的多語言支援。它在零樣本分類、圖文檢索及定位等任務上表現優異,並提供多種尺寸的模型,非常適合用作新一代多模態大模型(VLM)的視覺骨幹網路(Vision Backbone)。
想看英文原文 / 完整內容?
前往 Hugging Face Blog 原文 →摘要由 AI 整理,以原文為準。