IBM 於 Hugging Face 發布全新 Granite 4.0 3B Vision 模型。這款僅有 30 億參數的輕量級多模態模型,專為企業級文件理解、圖表分析與 OCR 數據提取而設計。其小巧的體積不僅大幅降低了部署門檻與運算成本,更在處理複雜商業報表與 PDF 文件時展現出極高的實用性,是企業本地化部署的理想選擇。
Hugging Face 宣布為其試算表 AI 工具「AI Sheets」引入影像處理功能。使用者現在可以直接在試算表儲存格中插入影像,並調用各類視覺語言模型(VLM)進行批次處理,例如自動生成描述、提取文字(OCR)、進行圖像分類或物件偵測。這項更新大幅降低了非開發人員處理大量影像資料的門檻,將試算表的便利性與先進的電腦視覺技術完美結合。
Hugging Face 正式發布 Idefics2,這是一款擁有 80 億參數的開源視覺語言模型(VLM)。它基於 Mistral-7B 與 SigLIP 構建,顯著提升了 OCR、圖表理解及多圖對話能力。Idefics2 支援原生解析度與長寬比,並以 Apache 2.0 授權釋出,極適合開發者進行微調與商業部署。