Hugging Face 介紹了「高效多模態資料管線 (MMDP)」的最佳實踐與工具。針對多模態模型(如 VLM)訓練中龐大的資料 I/O 瓶頸,MMDP 結合了延遲解碼、多程序並行處理與流式傳輸技術,顯著提升了影像、影片和音訊資料的處理效率,降低記憶體佔用,是現代多模態 AI 開發者優化訓練流程的必備指南。
NVIDIA 宣布將其輕量級視覺語言模型 Llama Nemotron Nano VLM 上架至 Hugging Face Hub。該模型結合了 Llama 架構與 NVIDIA 的 Nemotron 優化技術,專為邊緣運算與本機端部署設計。它能在低資源設備上高效執行圖像理解、視覺問答(VQA)與 OCR 等任務,為開發者提供更便利的開源多模態選擇。
Google DeepMind 宣布 Gemini 2.5 在 AI 語音對話與音訊生成上取得重大突破。新功能大幅提升了語音互動的流暢度、自然度與即時性,並支援更進階的音訊生成技術。這項更新將為開發者與企業帶來更具沉浸感的語音應用與全新一代的語音 Agent 體驗。
Hugging Face 發表了 nanoVLM 專案,旨在提供一個最簡單、無冗餘程式碼的純 PyTorch 框架,讓開發者與研究人員能輕鬆理解並動手訓練自己的視覺語言模型(VLM)。該專案仿照 nanoGPT 的極簡風格,去除了複雜的封裝,完整展示了從圖像編碼器、投影層到語言模型的整合與訓練流程,是學習與實驗 VLM 的絕佳起點。
Google DeepMind 發表全新開放模型 Gemma 3n 預覽版,專為行動裝置與端側(on-device)快速多模態 AI 設計。該模型不僅優化了執行效能,還引入獨特的「二合一(2-in-1)」彈性架構,並擴展了對音訊的理解能力。這將賦能開發者構建即時互動、以語音為核心的全新應用體驗。
Hugging Face 發布 2025 年視覺語言模型(VLM)趨勢報告。文章深入探討 VLM 在「更強(推理與 OCR)」、「更快(輕量化與推論優化)」與「更實用(多模態 Agent)」三大維度的演進。推薦了 Qwen2.5-VL、Llama-3.2-Vision 等主流開源模型,並介紹如何利用 Hugging Face 生態系進行高效部署與微調。
巴塞隆納超級電腦中心(BSC-LT)正式發布 Visual Salamandra 7B 多模態模型。該模型以其自主研發的 Salamandra 7B 語言模型為基礎,融合了先進的視覺編碼器,旨在提升圖像理解、視覺問答及 OCR 能力。特別的是,它承襲了 Salamandra 家族在西班牙語、加泰隆尼亞語等多語言環境下的優異表現,為開源多模態社群注入新選擇。
Google 推出全新一代開源模型 Gemma 3,具備強大的多模態(視覺與語音)理解能力、廣泛的多語言支持以及長文本處理能力。本次發布涵蓋多種參數規格,並與 Hugging Face 生態系統深度整合,開發者可立即透過 Transformers、vLLM 等工具進行部署與微調,為開源社群注入強大動力。
Cohere For AI 發表全新開源多語言多模態模型「Aya Vision」(提供 8B 與 32B 版本)。該模型旨在解決現有視覺語言模型(VLM)嚴重偏向英語的問題,大幅提升了對全球多種語言(特別是低資源語言)的圖像理解與文字生成能力。在多項多語言多模態基準測試中,Aya Vision 展現出超越同量級開源模型的優異性能,並已於 Hugging Face 平台上開源。
Google 與 Hugging Face 合作推出了 PaliGemma 2 Mix 系列模型。這是專為指令遵循(Instruction-following)設計的輕量級視覺語言模型(VLM),結合了 SigLIP 視覺編碼器與 Gemma 2 語言解碼器。 PaliGemma 2 Mix 提供多種參數大小(包含 3B、10B 與 28B),並在多種視覺問答、圖像描述及目標檢測等任務上進行了混合微調,開箱即可展現優異的多模態理解能力。 開發者可直接在 Hugging Face 上取得權重,並透過 Transformers 庫輕鬆進行部署與微調。
Hugging Face 旗下的輕量級 Agent 開源庫 smolagents 迎來重大更新,正式支援視覺語言模型(VLM)。開發者現在可以讓 Agent 接收並處理影像輸入,適用於網頁視覺導航、圖表分析及多模態任務。此更新大幅擴展了程式碼 Agent(Code Agent)的應用場景,使其能「看見」並理解真實世界的視覺資訊。
Hugging Face 發表了 SmolVLM 家族的最新成員:256M 和 500M 參數的超小型視覺語言模型(VLM)。這兩款模型體積極小,旨在讓多模態 AI 能在手機、物聯網設備或瀏覽器中流暢運行。儘管尺寸迷你,它們在基礎圖像描述與問答任務上仍展現出實用的性能,為邊緣端多模態應用開闢新路徑。
Hugging Face 發表了「Big Bench Audio」基準測試,旨在評估多模態模型在音訊領域的推理能力。傳統評估多著重於語音辨識(ASR),而此基準則涵蓋語音、音樂、環境音等多元任務,考驗模型進行邏輯推理與情境理解的深度。這項開源工具將協助開發者與研究人員更精準地衡量語音大模型的實際應用實力。
Google 發表全新一代輕量級視覺語言模型 PaliGemma 2,基於 SigLIP 視覺編碼器與 Gemma 2 文本解碼器。本次釋出包含 3B、10B 與 28B 三種參數規模,並提供多種輸入解析度(最高達 896x896)。PaliGemma 2 在圖像描述、視覺問答、目標檢測與文件理解等任務上表現優異,且已全面整合至 Hugging Face 生態系,支援快速微調與部署。
Hugging Face 發表全新輕量級視覺語言模型 SmolVLM(約 2.2B 參數),專為本機與邊緣設備設計。該模型結合了 SigLIP 視覺編碼器與 SmolLM2 語言模型,不僅支援多圖輸入與影片分析,在多項基準測試中更展現出媲美更大尺寸模型的性能。SmolVLM 採 Apache 2.0 開源授權,極低記憶體佔用使其成為開發者在終端裝置部署 VLM 的理想選擇。
CinePile 2.0 是一個專為長影片理解設計的問答資料集更新版本。本次更新引入了「對抗性精煉(Adversarial Refinement)」技術,旨在解決 LLM 生成干擾項過於簡單或存在偏誤的問題。透過篩選掉不需看影片就能回答的漏洞題目,CinePile 2.0 能更精準地評估多模態模型對複雜視覺與敘事邏輯的真實理解能力。
Meta 正式發布 Llama 3.2,最大亮點為首次推出 11B 和 90B 的視覺多模態模型,能理解圖像與圖表;同時推出專為手機與邊緣裝置設計的 1B 和 3B 超輕量文字模型,支援 128k 脈絡長度。Hugging Face 已在 Transformers、TGI 及微調工具中全面支援,方便開發者即刻部署與應用。
Hugging Face 釋出全新開源影片資料集「FineVideo」的幕後製作過程。為了解決高品質影片數據稀缺的問題,該項目收錄了超過 4.3 萬部影片(約 3,400 小時),並提供高達 120 萬個詳細的影片與文字配對。文章深入探討了其自動化清理、場景分割與多模態模型標註的管線(Pipeline)設計,旨在為社群提供訓練下一代影片理解與生成模型(Video-LLM)的標準基石。
Hugging Face 發表了專為文件視覺問答(DocVQA)設計的超大型開源數據集 Docmatix。該數據集規模比現有同類數據集大上百倍,包含 240 萬張文件圖片及 950 萬個高質量的問答對。Docmatix 的推出解決了多模態模型在處理複雜 PDF、報表等視覺文件時微調數據不足的痛點,將顯著提升開源視覺語言模型(VLM)的文件解析與問答能力。
Hugging Face 發布技術指南,介紹如何將直接偏好最佳化(DPO)應用於視覺語言模型(VLM)。透過 TRL(Transformer Reinforcement Learning)庫,開發者可以輕鬆對 Idefics2 等多模態模型進行對齊訓練。此方法能有效減少 VLM 常見的「幻覺」問題,並顯著提升模型在視覺問答任務中的表現與人類偏好一致性。
知名簡報平台 Prezi 為了在產品中導入多模態 AI 功能,與 Hugging Face 展開深度合作。透過利用 Hugging Face Hub 的開源模型生態系,並加入「專家支持計畫(Expert Support Program)」,Prezi 獲得了 HF 頂尖工程師的直接技術指導。這項合作不僅解決了模型微調與推理優化的技術瓶頸,更大幅縮短了其機器學習路線圖的時程,實現高效的多模態功能落地。
阿布達比技術創新研究所(TII)推出全新開源模型 Falcon 2 11B,包含預訓練語言模型與視覺語言模型(VLM)。該模型在超過 5 兆(5000B)Token 的高質量數據上進行訓練,支援 11 種語言。其性能在同量級模型中表現亮眼,並採用 Apache 2.0 授權,對開源社群與開發者極具吸引力。
Google 發表全新開源視覺語言模型 PaliGemma,結合了 SigLIP 視覺編碼器與 Gemma-2B 語言模型。PaliGemma 具備強大的圖像描述、視覺問答(VQA)、物件偵測與 OCR 能力,並提供多種解析度版本。該模型已深度整合至 Hugging Face 生態系,非常適合開發者進行特定下游任務的微調。
Hugging Face 正式發布 Idefics2,這是一款擁有 80 億參數的開源視覺語言模型(VLM)。它基於 Mistral-7B 與 SigLIP 構建,顯著提升了 OCR、圖表理解及多圖對話能力。Idefics2 支援原生解析度與長寬比,並以 Apache 2.0 授權釋出,極適合開發者進行微調與商業部署。
Hugging Face 發布視覺語言模型(VLM)科普指南,詳解其結合圖像編碼器與文字解碼器的架構設計。文章涵蓋了從多模態預訓練到指令微調的完整訓練流程,並介紹了 LLaVA、Idefics 等主流開源模型。此外,也提供了如何使用 Hugging Face transformers 庫進行推理的實用程式碼範例,是理解多模態 AI 的必讀教材。
Hugging Face 發表全新基準測試「ConTextual」並上線排行榜。該基準專注於評估多模態大模型(MLLM)在處理「富含文本的圖像」(如圖表、資訊圖表、街景招牌等)時的圖文聯合推理能力。這項測試超越了單純的 OCR 文字識別,更考驗模型結合視覺上下文與文本進行深度推理的實力,為評估當前頂尖多模態模型提供了更貼近真實應用場景的標準。
Hugging Face 發表開源多模態視覺語言模型 IDEFICS,旨在重現 DeepMind 閉源模型 Flamingo 的強大功能。該模型基於 LLaMA 與 OpenCLIP 構建,提供 9B 與 80B 兩種參數版本,能同時處理交錯的文本與圖片輸入。IDEFICS 的開源為社群提供了強大的多模態研究基礎,並同步釋出了大規模數據集 OBELICS。
Hugging Face 分享了建立「AI WebTV」的實戰指南。該專案整合了多種開源 AI 技術:利用 LLM 自動生成劇本、透過 Stable Diffusion 產生視覺畫面,並結合 TTS 語音合成技術。最後,利用 FFmpeg 將這些素材即時融合成影片串流,部署於 Hugging Face Spaces 並可同步直播至 Twitch 等平台,展示了多模態 AI 工作流的強大整合能力。
本技術文章介紹如何將視覺語言模型 BridgeTower 部署於 Intel 的 Habana Gaudi2 晶片上。透過 Hugging Face 的 optimum-habana 整合套件,開發者只需修改極少代碼,即可在 Gaudi2 上實現高效能的跨模態模型訓練與推理。相較於傳統 GPU,Gaudi2 在處理此類複雜的多模態任務時展現出極佳的性價比與加速表現。
韓國科技巨頭 Kakao 旗下的 AI 研究部門 Kakao Brain,在 Hugging Face 上釋出了全新的 ViT 與 ALIGN 模型。這些模型基於其先前開源的 COYO-700M 超大規模圖文對數據集進行訓練。本次開源不僅補足了 ALIGN 模型缺乏開源權重的遺憾,也為多模態表徵、圖像檢索與零樣本分類等任務提供了強大的新選擇。