Google 正式推出 Gemma 4 開放模型家族,將前沿的多模態智能帶入裝置端。Gemma 4 體積輕量、適合在手機與筆電運行,並具備強大的視覺與文字理解能力。Hugging Face 已在第一時間提供完整支援,開發者可立即透過 Transformers 進行微調與部署。
阿聯酋技術創新研究所(TII)在 Hugging Face 上發表了「Falcon Perception」模型。這標誌著著名的 Falcon 開源家族正式擴展至多模態與視覺感知領域。該模型旨在提升開源社群在視覺問答、圖像理解及多模態任務上的能力,延續了 TII 一貫的高效能與開源精神,為開發者提供強大的視覺感知工具。
Hcompany 在 Hugging Face 上推出了 Holotron-12B 開源模型,專為「電腦操作(Computer Use)」設計。該模型具備 120 億參數,主打「高吞吐量」特性,旨在提升 AI 代理在操作作業系統與應用程式時的反應速度與執行效率,為輕量高效的 Agent 邁出重要一步。
法國 AI 新創 H Company 發表全新 Holo2-235B 模型,在 UI 元素定位(UI Localization)任務上取得領先。該模型擁有 2350 億參數,旨在精準識別與定位網頁及應用程式中的互動元件。這項突破將大幅提升 GUI 運作型 Agent(如自動操作電腦的 AI)的執行效率與準確度,是自動化工作流與 AI 代理領域的重要進展。
Replicate 平台正式上架 Isaac 0.1 模型。這是一款輕量級且具備定位能力(Grounded)的視覺語言模型(VLM),專為真實世界的空間感知與物體識別而設計。開發者現在可以透過 Replicate 的雲端 API 輕鬆部署並整合此模型,適用於機器人、物聯網及空間運算等需要即時視覺理解的應用場景。
本文探討如何利用開源模型(如 Florence-2、Qwen2-VL 與 Llama-3.2-Vision)替代傳統 OCR 系統。開源 VLM 不僅能精準辨識文字,還能直接輸出 JSON 或 Markdown 等結構化格式,解決複雜排版與表格解析的痛點。透過 Hugging Face 生態系,開發者可以輕鬆部署並微調這些模型,打造高效、低成本且隱私安全的文檔處理 Pipeline。
Hugging Face 介紹如何利用 OpenVINO 在 Intel CPU 上優化並運行視覺語言模型(VLM)。開發者只需透過安裝環境、轉換模型、執行推論三個簡單步驟,即可在無獨立顯卡的 Intel 硬體上實現高效的多模態處理,大幅降低 VLM 的本地部署門檻,非常適合邊緣運算與個人開發環境。
Hugging Face 旗下的 TRL(Transformer Reinforcement Learning)套件迎來重大更新,正式支援視覺語言模型(VLM)的對齊訓練。開發者現在可以直接使用 DPOTrainer 或 ORPOTrainer 來處理包含圖像與文字的偏好資料集。此更新簡化了 LLaVA、PaliGemma 等主流多模態模型的微調流程,並支援 QLoRA 與 DeepSpeed 等顯存優化技術,大幅降低了 VLM 對齊的門檻。
Hugging Face 介紹了「高效多模態資料管線 (MMDP)」的最佳實踐與工具。針對多模態模型(如 VLM)訓練中龐大的資料 I/O 瓶頸,MMDP 結合了延遲解碼、多程序並行處理與流式傳輸技術,顯著提升了影像、影片和音訊資料的處理效率,降低記憶體佔用,是現代多模態 AI 開發者優化訓練流程的必備指南。
NVIDIA 宣布將其輕量級視覺語言模型 Llama Nemotron Nano VLM 上架至 Hugging Face Hub。該模型結合了 Llama 架構與 NVIDIA 的 Nemotron 優化技術,專為邊緣運算與本機端部署設計。它能在低資源設備上高效執行圖像理解、視覺問答(VQA)與 OCR 等任務,為開發者提供更便利的開源多模態選擇。
本教學深入探討大語言模型推理加速的核心技術——KV Cache。文章以輕量級視覺語言模型 nanoVLM 為基礎,從原理出發,逐步引導讀者用 PyTorch 從頭實作 KV Cache。內容涵蓋 Prefill 與 Decode 階段的快取處理,並特別解析了多模態情境下視覺 Token 的快取優化,是理解 Transformer 推理底層邏輯的極佳教材。
法國 AI 新創公司 H (Hcompany) 於 Hugging Face 發表了全新的視覺語言模型 (VLM) 家族「Holo1」,專為 GUI(圖形使用者介面)自動化設計。該模型家族是其全新 GUI 代理人「Surfer-H」的核心引擎。Holo1 具備強大的視覺解析與螢幕定位能力,能夠理解複雜的網頁與應用程式介面,並執行點擊、輸入等操作。這項釋出標誌著 AI 代理人從單純的文字 API 呼叫,邁向能像人類一樣直接透過視覺操作任何軟體介面的新階段。
Hugging Face 發表了 nanoVLM 專案,旨在提供一個最簡單、無冗餘程式碼的純 PyTorch 框架,讓開發者與研究人員能輕鬆理解並動手訓練自己的視覺語言模型(VLM)。該專案仿照 nanoGPT 的極簡風格,去除了複雜的封裝,完整展示了從圖像編碼器、投影層到語言模型的整合與訓練流程,是學習與實驗 VLM 的絕佳起點。
Hugging Face 發布 2025 年視覺語言模型(VLM)趨勢報告。文章深入探討 VLM 在「更強(推理與 OCR)」、「更快(輕量化與推論優化)」與「更實用(多模態 Agent)」三大維度的演進。推薦了 Qwen2.5-VL、Llama-3.2-Vision 等主流開源模型,並介紹如何利用 Hugging Face 生態系進行高效部署與微調。
Intel 與 Hugging Face 合作介紹先進的僅權重量化演算法 AutoRound。它透過符號梯度下降優化權重捨入決策,顯著降低 4-bit 等低位元量化帶來的精度損失。該技術全面支援 LLM 與視覺語言模型(VLM),並已深度整合至 Hugging Face 生態系,讓開發者能更輕鬆地在消費級硬體上部署高效能模型。
Allen AI 推出的 olmOCR 是基於視覺語言模型(VLM)的強大 PDF 轉 Markdown 工具,但在面對嚴謹業務時仍有幻覺或漏字風險。TNG Technology Consulting 分享了他們如何透過精心設計的資料集與微調技術,顯著提升 olmOCR 的「忠實度(Faithfulness)」。微調後的模型能更精準地辨識複雜排版、表格與公式,並大幅降低文字篡改與遺漏,為企業級 OCR 應用提供可靠的開源解決方案。
巴塞隆納超級電腦中心(BSC-LT)正式發布 Visual Salamandra 7B 多模態模型。該模型以其自主研發的 Salamandra 7B 語言模型為基礎,融合了先進的視覺編碼器,旨在提升圖像理解、視覺問答及 OCR 能力。特別的是,它承襲了 Salamandra 家族在西班牙語、加泰隆尼亞語等多語言環境下的優異表現,為開源多模態社群注入新選擇。
Cohere For AI 發表全新開源多語言多模態模型「Aya Vision」(提供 8B 與 32B 版本)。該模型旨在解決現有視覺語言模型(VLM)嚴重偏向英語的問題,大幅提升了對全球多種語言(特別是低資源語言)的圖像理解與文字生成能力。在多項多語言多模態基準測試中,Aya Vision 展現出超越同量級開源模型的優異性能,並已於 Hugging Face 平台上開源。
Google 與 Hugging Face 聯合發表 SigLIP 2 視覺語言編碼器。作為經典 SigLIP 的升級版,SigLIP 2 引入了動態解析度、自監督學習(SSL)輔助任務與更強的多語言支援。它在零樣本分類、圖文檢索及定位等任務上表現優異,並提供多種尺寸的模型,非常適合用作新一代多模態大模型(VLM)的視覺骨幹網路(Vision Backbone)。
Hugging Face 正式發布 SmolVLM2 系列模型,專為手機與筆電等個人裝置設計。此版本最大亮點是引入了強大的「影片理解」與「多圖處理」能力,其中 2.2B 旗艦版本在保持極低運算資源消耗的同時,能在多項視覺與影片基準測試中媲美更大尺寸的模型。模型完全開源並採用 Apache 2.0 授權,極具實用價值。
Google 與 Hugging Face 合作推出了 PaliGemma 2 Mix 系列模型。這是專為指令遵循(Instruction-following)設計的輕量級視覺語言模型(VLM),結合了 SigLIP 視覺編碼器與 Gemma 2 語言解碼器。 PaliGemma 2 Mix 提供多種參數大小(包含 3B、10B 與 28B),並在多種視覺問答、圖像描述及目標檢測等任務上進行了混合微調,開箱即可展現優異的多模態理解能力。 開發者可直接在 Hugging Face 上取得權重,並透過 Transformers 庫輕鬆進行部署與微調。
Hugging Face 發表全新開源工具包 vid_ds_scripts,解決影片生成模型(如 LTX-Video、HunyuanVideo)訓練資料準備的痛點。該工具包提供一站式解決方案,涵蓋影片下載、PySceneDetect 場景分割、VLM 自動生成詳細描述,以及資料過濾與格式化。這大幅降低了開發者構建高品質「影片-文字對」資料集的門檻,加速開源影片生成技術的微調與研發。
Hugging Face 旗下的輕量級 Agent 開源庫 smolagents 迎來重大更新,正式支援視覺語言模型(VLM)。開發者現在可以讓 Agent 接收並處理影像輸入,適用於網頁視覺導航、圖表分析及多模態任務。此更新大幅擴展了程式碼 Agent(Code Agent)的應用場景,使其能「看見」並理解真實世界的視覺資訊。
Hugging Face 發表了 SmolVLM 家族的最新成員:256M 和 500M 參數的超小型視覺語言模型(VLM)。這兩款模型體積極小,旨在讓多模態 AI 能在手機、物聯網設備或瀏覽器中流暢運行。儘管尺寸迷你,它們在基礎圖像描述與問答任務上仍展現出實用的性能,為邊緣端多模態應用開闢新路徑。
Hugging Face 發表全新的 VDR-2B-multilingual 模型,專為視覺文件檢索(VDR)設計。傳統檢索依賴繁瑣的 OCR 步驟,而該模型能直接將文件頁面視為圖像進行向量化,保留排版、圖表與插圖資訊。本次更新重點在於擴展至多語言支持(包含中英日韓等),大幅提升跨國企業與多語系文檔的檢索效率與準確度。
Google 發表全新一代輕量級視覺語言模型 PaliGemma 2,基於 SigLIP 視覺編碼器與 Gemma 2 文本解碼器。本次釋出包含 3B、10B 與 28B 三種參數規模,並提供多種輸入解析度(最高達 896x896)。PaliGemma 2 在圖像描述、視覺問答、目標檢測與文件理解等任務上表現優異,且已全面整合至 Hugging Face 生態系,支援快速微調與部署。
Hugging Face 發表全新輕量級視覺語言模型 SmolVLM(約 2.2B 參數),專為本機與邊緣設備設計。該模型結合了 SigLIP 視覺編碼器與 SmolLM2 語言模型,不僅支援多圖輸入與影片分析,在多項基準測試中更展現出媲美更大尺寸模型的性能。SmolVLM 採 Apache 2.0 開源授權,極低記憶體佔用使其成為開發者在終端裝置部署 VLM 的理想選擇。
Hugging Face 發表了專為文件視覺問答(DocVQA)設計的超大型開源數據集 Docmatix。該數據集規模比現有同類數據集大上百倍,包含 240 萬張文件圖片及 950 萬個高質量的問答對。Docmatix 的推出解決了多模態模型在處理複雜 PDF、報表等視覺文件時微調數據不足的痛點,將顯著提升開源視覺語言模型(VLM)的文件解析與問答能力。
Hugging Face 發布技術指南,介紹如何將直接偏好最佳化(DPO)應用於視覺語言模型(VLM)。透過 TRL(Transformer Reinforcement Learning)庫,開發者可以輕鬆對 Idefics2 等多模態模型進行對齊訓練。此方法能有效減少 VLM 常見的「幻覺」問題,並顯著提升模型在視覺問答任務中的表現與人類偏好一致性。
微軟推出的 Florence-2 是一款強大且輕量的視覺語言模型(VLM),僅有 232M 與 770M 兩種參數版本,卻能高效處理 OCR、目標檢測、圖像描述等多種任務。Hugging Face 官方部落格發布了這篇實用指南,詳細教學如何使用 Hugging Face 的 transformers 與 peft 函式庫,在自訂資料集上對 Florence-2 進行微調(Fine-tuning),並利用 LoRA 技術降低顯示記憶體需求,非常適合想在邊緣裝置或有限資源下部署視覺 AI 的開發者。