阿聯酋技術創新研究所(TII)在 Hugging Face 上發表了「Falcon Perception」模型。這標誌著著名的 Falcon 開源家族正式擴展至多模態與視覺感知領域。該模型旨在提升開源社群在視覺問答、圖像理解及多模態任務上的能力,延續了 TII 一貫的高效能與開源精神,為開發者提供強大的視覺感知工具。
Hugging Face 宣布為其試算表 AI 工具「AI Sheets」引入影像處理功能。使用者現在可以直接在試算表儲存格中插入影像,並調用各類視覺語言模型(VLM)進行批次處理,例如自動生成描述、提取文字(OCR)、進行圖像分類或物件偵測。這項更新大幅降低了非開發人員處理大量影像資料的門檻,將試算表的便利性與先進的電腦視覺技術完美結合。
法國 AI 新創公司 H (Hcompany) 於 Hugging Face 發表了全新的視覺語言模型 (VLM) 家族「Holo1」,專為 GUI(圖形使用者介面)自動化設計。該模型家族是其全新 GUI 代理人「Surfer-H」的核心引擎。Holo1 具備強大的視覺解析與螢幕定位能力,能夠理解複雜的網頁與應用程式介面,並執行點擊、輸入等操作。這項釋出標誌著 AI 代理人從單純的文字 API 呼叫,邁向能像人類一樣直接透過視覺操作任何軟體介面的新階段。
Hugging Face 發布 2025 年視覺語言模型(VLM)趨勢報告。文章深入探討 VLM 在「更強(推理與 OCR)」、「更快(輕量化與推論優化)」與「更實用(多模態 Agent)」三大維度的演進。推薦了 Qwen2.5-VL、Llama-3.2-Vision 等主流開源模型,並介紹如何利用 Hugging Face 生態系進行高效部署與微調。
Cohere For AI 發表全新開源多語言多模態模型「Aya Vision」(提供 8B 與 32B 版本)。該模型旨在解決現有視覺語言模型(VLM)嚴重偏向英語的問題,大幅提升了對全球多種語言(特別是低資源語言)的圖像理解與文字生成能力。在多項多語言多模態基準測試中,Aya Vision 展現出超越同量級開源模型的優異性能,並已於 Hugging Face 平台上開源。
Hugging Face 發表全新的 VDR-2B-multilingual 模型,專為視覺文件檢索(VDR)設計。傳統檢索依賴繁瑣的 OCR 步驟,而該模型能直接將文件頁面視為圖像進行向量化,保留排版、圖表與插圖資訊。本次更新重點在於擴展至多語言支持(包含中英日韓等),大幅提升跨國企業與多語系文檔的檢索效率與準確度。
阿布達比技術創新研究所(TII)推出全新開源模型 Falcon 2 11B,包含預訓練語言模型與視覺語言模型(VLM)。該模型在超過 5 兆(5000B)Token 的高質量數據上進行訓練,支援 11 種語言。其性能在同量級模型中表現亮眼,並採用 Apache 2.0 授權,對開源社群與開發者極具吸引力。
Hugging Face 正式發布 Idefics2,這是一款擁有 80 億參數的開源視覺語言模型(VLM)。它基於 Mistral-7B 與 SigLIP 構建,顯著提升了 OCR、圖表理解及多圖對話能力。Idefics2 支援原生解析度與長寬比,並以 Apache 2.0 授權釋出,極適合開發者進行微調與商業部署。