Google 與 Hugging Face 聯合發表 SigLIP 2 視覺語言編碼器。作為經典 SigLIP 的升級版,SigLIP 2 引入了動態解析度、自監督學習(SSL)輔助任務與更強的多語言支援。它在零樣本分類、圖文檢索及定位等任務上表現優異,並提供多種尺寸的模型,非常適合用作新一代多模態大模型(VLM)的視覺骨幹網路(Vision Backbone)。
Hugging Face 釋出的這篇技術指南,深入探討了視覺語言模型 (VLM) 的核心架構。文章詳細介紹了 VLM 如何結合圖像與文字編碼器,並剖析了對比學習(如 CLIP)、生成式(如 BLIP、GIT)及多模態融合等三大主流預訓練策略。最後,展示了如何利用 Hugging Face Transformers 庫輕鬆調用這些模型,是理解多模態 AI 的必讀經典。
本文探討如何利用 CLIP 的語意搜尋能力與龐大的 LAION-5B 開源影像數據集,自動化建立自定義圖像數據集。讀者可以透過輸入文字描述,精準篩選並批次下載成千上萬張相關圖片與其標籤。這對於需要訓練專屬 AI 模型(如 Stable Diffusion 微調)的開發者與研究人員來說,是一個極具實用價值的工具與工作流。
Hugging Face 介紹了如何使用其 datasets 庫來實現圖像搜尋系統。透過整合預訓練的視覺模型(如 CLIP)來提取圖像的特徵向量(embeddings),並利用內建的 FAISS 索引功能,開發者可以輕鬆對大規模圖像數據集進行高效的相似度檢索。這為以圖搜圖、多模態檢索等應用提供了極為簡便的實作路徑。
本文探討如何針對遙測(衛星)影像微調 OpenAI 的 CLIP 多模態模型。由於通用 CLIP 在處理俯視、高空等特殊視角的衛星影像時表現不佳,研究團隊利用 RSICD 數據集與 JAX/Flax 框架進行微調。微調後的模型能顯著提升衛星影像的文本檢索與分類準確度,為地理資訊與遙測領域提供強大的開源工具。