Google 發表了全新的「任意對任意(anything-to-anything)」AI 模型 Gemini Omni。外媒記者實測將其用於將小孩的毛絨鹿玩具「Buddy」合成到各種度假場景中,發現其生成效果極其逼真且操作簡單。這款模型不僅展現了強大的多模態影片生成與編輯能力,同時也再度引發了關於深偽(Deepfake)技術門檻降低與倫理界線的討論。
神秘 AI 新創公司 Hark 宣布完成高達 7 億美元的 A 輪融資,資金將用於開發其「通用」AI 介面。Hark 預計於今年夏天推出首款多模態模型,旨在驅動一個能與現有產品和服務協同運作的個人 AI 平台。此外,該公司未來還計劃推出專為這些系統量身打造的硬體設備。
Latent Space 報導 Google I/O 2026 最新進展。本次大會亮點包括新一代輕量快速模型 Gemini 3.5 Flash、專注於影片處理的 Omni (NanoBanana)、主打背景運作的 Agent 框架 Spark,以及技術升級的 Antigravity 2.0。這些發布顯示 Google 持續在多模態影片、自主 Agent 及模型效能上發力。
Google DeepMind 發表新一代「Gemini Omni」模型,採用原生端到端全模態架構,能同時處理並輸出文字、音訊與視覺資訊。該模型顯著降低了互動延遲,實現如同真人般的流暢對話與即時視訊引導,未來將深度整合至 Android 系統與 Google 生態系,並透過 API 開放給開發者。
Google DeepMind 宣布推出「Gemini for Science」計畫,整合了一系列專為科學研究設計的 AI 工具與實驗。該計畫旨在利用 Gemini 的多模態與推理能力,協助科學家擴大研究規模並提升探索的精準度。這標誌著 AI 從通用助手邁向深度的科學發現夥伴,為材料科學、生物醫學等領域帶來新的可能性。
NVIDIA 推出全新輕量級多模態模型 Nemotron 3 Nano Omni,主打「長文本」與「多模態」處理能力。該模型專為文件分析、語音與影片理解的 AI Agent 所設計,能在資源受限的設備上運行。這標誌著邊緣端(On-device)多模態 Agent 應用的重大突破。
阿聯酋技術創新研究所(TII)在 Hugging Face 上發表了「Falcon Perception」模型。這標誌著著名的 Falcon 開源家族正式擴展至多模態與視覺感知領域。該模型旨在提升開源社群在視覺問答、圖像理解及多模態任務上的能力,延續了 TII 一貫的高效能與開源精神,為開發者提供強大的視覺感知工具。
IBM 於 Hugging Face 發布全新 Granite 4.0 3B Vision 模型。這款僅有 30 億參數的輕量級多模態模型,專為企業級文件理解、圖表分析與 OCR 數據提取而設計。其小巧的體積不僅大幅降低了部署門檻與運算成本,更在處理複雜商業報表與 PDF 文件時展現出極高的實用性,是企業本地化部署的理想選擇。
Hugging Face 發布 2026 年春季開源報告,揭示開源 AI 生態的最新趨勢。報告指出,具備推理能力的開源模型(如 DeepSeek 與 Qwen 系列)已成為社群主流;同時,以 smolagents 為首的輕量級 Agent 框架與本機端(On-Device)小模型正快速普及。此外,開源多模態與影片生成技術的下載量也創下歷史新高,展現出開源社群強大的創新動能。
Google DeepMind 宣布在 Gemini 應用程式中整合其最先進的音樂生成模型 Lyria 3。用戶現在只需輸入文字描述或上傳圖片,即可輕鬆生成 30 秒的高品質音樂片段。這項功能大幅降低了音樂創作門檻,為社群創作者、設計師及一般大眾提供全新的多模態創作工具。
Google DeepMind 宣布推出改進後的 Gemini 音訊模型,專為即時語音體驗進行優化。新模型採用原生多模態架構,無需經過「語音轉文字」的中介步驟,即可直接理解並生成語音,大幅降低延遲。這項升級將賦予開發者構建更具情感表現力、反應更迅速的語音助理與互動應用的能力,並已陸續在 Google AI Studio 與 Vertex AI 上線。
Google DeepMind 宣布推出名為「Nano Banana Pro」的 Gemini 3 Pro 圖像模型。作為 Gemini 3 世代的專業級視覺模型,它旨在為開發者提供更強大的影像生成或理解能力。標題「Build with...」顯示該模型已開放 API 或開發工具,鼓勵開發者將其整合至各式應用中。
Google DeepMind 宣布推出其最新一代旗艦模型 Gemini 3,並全面開放開發者進行建構。此版本在多模態理解、邏輯推理與生成速度上皆有顯著提升。開發者現在可以透過 Google AI Studio 和 Vertex AI 存取 Gemini 3 API,體驗更強大的上下文處理能力與更低的延遲,為下一代 AI 應用與 Agent 開發奠定基礎。
Google DeepMind 宣布推出全新一代旗艦模型 Gemini 3。此版本在多模態理解、複雜邏輯推理及長文本處理能力上皆有顯著突破。Gemini 3 更加強調「主動式智能體(Agentic AI)」的實用化,能自主規劃並執行跨平台的複雜任務,並大幅降低了延遲與運算成本,為個人與企業應用帶來全新變革。
Google DeepMind 推出新一代 AI 代理 SIMA 2,全面導入 Gemini 模型的能力。SIMA 2 不僅能在多個 3D 虛擬與遊戲世界中執行任務,還具備更強的推理、語言理解與即時決策能力。這項技術展示了 AI 如何從單純的指令接收者,演變為能在複雜互動環境中與人類協同合作的智慧夥伴。
Google DeepMind 宣佈 Gemini 2.5 Flash-Lite 結束預覽階段,正式推出穩定版(GA)。這款主打高性價比的輕量級模型,在維持小體積與低成本的同時,依然提供極高的輸出品質。它完整繼承了 Gemini 2.5 家族的強大功能,包含 100 萬 token 的超長上下文視窗與多模態處理能力,非常適合開發者與企業用於需要大規模部署與快速響應的生產環境。
Google DeepMind 發表全新實驗性 AI 工具「Backstory」,旨在幫助使用者探索網路圖片的脈絡與起源。該工具能分析圖片的傳播歷史、原始出處及可能的修改痕跡,協助使用者在假訊息充斥的網路環境中辨識真偽。這項技術展現了多模態 AI 在提升數位素養與打擊不實資訊方面的潛力。
Google DeepMind 發表 Gemini Robotics 1.5,旨在將 AI Agent 的能力帶入實體世界。透過此系統,機器人將具備更強大的環境感知、多步驟任務規劃、邏輯思考、工具使用以及實體行動能力。這項進展代表著「實體代理(Physical Agents)」時代的開啟,能更有效率地解決現實世界中複雜且多步驟的實體任務。
Google DeepMind 發表全新的 Gemini 2.5 Computer Use 專用模型,目前已透過 API 提供預覽。該模型基於 Gemini 2.5 Pro 的強大能力進行微調,旨在賦能 AI 代理(Agents)直接與作業系統及應用程式的用戶介面(UI)進行互動。這項技術將加速自動化工作流程的開發,讓 AI 能夠像人類一樣執行點擊、輸入和導覽等電腦操作。
Hugging Face 宣布為其試算表 AI 工具「AI Sheets」引入影像處理功能。使用者現在可以直接在試算表儲存格中插入影像,並調用各類視覺語言模型(VLM)進行批次處理,例如自動生成描述、提取文字(OCR)、進行圖像分類或物件偵測。這項更新大幅降低了非開發人員處理大量影像資料的門檻,將試算表的便利性與先進的電腦視覺技術完美結合。
Google DeepMind 宣布 Gemini 2.5 在 AI 語音對話與音訊生成上取得重大突破。新功能大幅提升了語音互動的流暢度、自然度與即時性,並支援更進階的音訊生成技術。這項更新將為開發者與企業帶來更具沉浸感的語音應用與全新一代的語音 Agent 體驗。
Google DeepMind 發表全新開放模型 Gemma 3n 預覽版,專為行動裝置與端側(on-device)快速多模態 AI 設計。該模型不僅優化了執行效能,還引入獨特的「二合一(2-in-1)」彈性架構,並擴展了對音訊的理解能力。這將賦能開發者構建即時互動、以語音為核心的全新應用體驗。
Hugging Face 發布 2025 年視覺語言模型(VLM)趨勢報告。文章深入探討 VLM 在「更強(推理與 OCR)」、「更快(輕量化與推論優化)」與「更實用(多模態 Agent)」三大維度的演進。推薦了 Qwen2.5-VL、Llama-3.2-Vision 等主流開源模型,並介紹如何利用 Hugging Face 生態系進行高效部署與微調。
Google 推出全新一代開源模型 Gemma 3,具備強大的多模態(視覺與語音)理解能力、廣泛的多語言支持以及長文本處理能力。本次發布涵蓋多種參數規格,並與 Hugging Face 生態系統深度整合,開發者可立即透過 Transformers、vLLM 等工具進行部署與微調,為開源社群注入強大動力。
Cohere For AI 發表全新開源多語言多模態模型「Aya Vision」(提供 8B 與 32B 版本)。該模型旨在解決現有視覺語言模型(VLM)嚴重偏向英語的問題,大幅提升了對全球多種語言(特別是低資源語言)的圖像理解與文字生成能力。在多項多語言多模態基準測試中,Aya Vision 展現出超越同量級開源模型的優異性能,並已於 Hugging Face 平台上開源。
知名簡報平台 Prezi 為了在產品中導入多模態 AI 功能,與 Hugging Face 展開深度合作。透過利用 Hugging Face Hub 的開源模型生態系,並加入「專家支持計畫(Expert Support Program)」,Prezi 獲得了 HF 頂尖工程師的直接技術指導。這項合作不僅解決了模型微調與推理優化的技術瓶頸,更大幅縮短了其機器學習路線圖的時程,實現高效的多模態功能落地。
阿布達比技術創新研究所(TII)推出全新開源模型 Falcon 2 11B,包含預訓練語言模型與視覺語言模型(VLM)。該模型在超過 5 兆(5000B)Token 的高質量數據上進行訓練,支援 11 種語言。其性能在同量級模型中表現亮眼,並採用 Apache 2.0 授權,對開源社群與開發者極具吸引力。
Hugging Face 正式發布 Idefics2,這是一款擁有 80 億參數的開源視覺語言模型(VLM)。它基於 Mistral-7B 與 SigLIP 構建,顯著提升了 OCR、圖表理解及多圖對話能力。Idefics2 支援原生解析度與長寬比,並以 Apache 2.0 授權釋出,極適合開發者進行微調與商業部署。
Hugging Face 發布針對多模態 AI 研究的倫理憲章。該憲章強調「價值敏感設計」,主張在資料治理、模型訓練、評估與釋出的每個階段皆須融入倫理考量。此舉旨在推動更具包容性、透明且負責任的開源 AI 協作生態,為全球研究人員在開發結合文字、影像與語音的多模態模型時,提供具體的道德指引與實踐框架。