Google DeepMind 宣布將其先進的 SynthID 浮水印技術整合至 Gemini 應用程式中。這項技術能在不影響視覺品質的前提下,於 AI 生成的圖像中植入隱形浮水印,即使經過裁剪、壓縮或編輯也能被偵測。此舉旨在協助用戶辨識 AI 生成內容,應對深偽(Deepfake)與假訊息挑戰,並推動數位內容的透明度。
Google DeepMind 宣布推出名為「Nano Banana Pro」的 Gemini 3 Pro 圖像模型。作為 Gemini 3 世代的專業級視覺模型,它旨在為開發者提供更強大的影像生成或理解能力。標題「Build with...」顯示該模型已開放 API 或開發工具,鼓勵開發者將其整合至各式應用中。
Google DeepMind 宣布推出其最新一代旗艦模型 Gemini 3,並全面開放開發者進行建構。此版本在多模態理解、邏輯推理與生成速度上皆有顯著提升。開發者現在可以透過 Google AI Studio 和 Vertex AI 存取 Gemini 3 API,體驗更強大的上下文處理能力與更低的延遲,為下一代 AI 應用與 Agent 開發奠定基礎。
知名 AI 學者 Ethan Mollick 撰文指出,AI 技術在過去三年經歷了巨大的範式轉移。AI 已從最初 GPT-3 時代單純進行文本生成與對話的「聊天機器人(Chatbots)」,演進至如今以 Gemini 3 為代表、具備自主規劃與執行能力的「AI Agent(代理人)」。這一轉變不僅改變了人機互動模式,也重新定義了 AI 在工作與生活中的實用價值。
Google DeepMind 宣布推出全新一代旗艦模型 Gemini 3。此版本在多模態理解、複雜邏輯推理及長文本處理能力上皆有顯著突破。Gemini 3 更加強調「主動式智能體(Agentic AI)」的實用化,能自主規劃並執行跨平台的複雜任務,並大幅降低了延遲與運算成本,為個人與企業應用帶來全新變革。
Google DeepMind 推出新一代 AI 代理 SIMA 2,全面導入 Gemini 模型的能力。SIMA 2 不僅能在多個 3D 虛擬與遊戲世界中執行任務,還具備更強的推理、語言理解與即時決策能力。這項技術展示了 AI 如何從單純的指令接收者,演變為能在複雜互動環境中與人類協同合作的智慧夥伴。
隨著 AI 提供的決策與建議在工作中變得越來越重要,傳統的簡單測試已不足以評估其極限。華頓商學院教授 Ethan Mollick 指出,我們需要透過結構化的「工作面試」流程,包含情境問答、極限測試與邏輯追問,來評估 AI 在特定任務中的真實實力、潛在偏見與幻覺機率,從而決定如何安全地與其協作。
北愛爾蘭教育局的 C2k 計劃與 Google 展開為期六個月的試點項目,評估生成式 AI 在教育現場的實際應用。結果指出,透過導入 Gemini 等 AI 工具,參與教師平均每週成功節省了 10 小時。這些省下的時間讓教師能更專注於課堂教學與學生互動,有效緩解了教學現場的行政負擔。
Google DeepMind 宣佈 Gemini 2.5 Flash-Lite 結束預覽階段,正式推出穩定版(GA)。這款主打高性價比的輕量級模型,在維持小體積與低成本的同時,依然提供極高的輸出品質。它完整繼承了 Gemini 2.5 家族的強大功能,包含 100 萬 token 的超長上下文視窗與多模態處理能力,非常適合開發者與企業用於需要大規模部署與快速響應的生產環境。
Google DeepMind 發表全新實驗性 AI 工具「Backstory」,旨在幫助使用者探索網路圖片的脈絡與起源。該工具能分析圖片的傳播歷史、原始出處及可能的修改痕跡,協助使用者在假訊息充斥的網路環境中辨識真偽。這項技術展現了多模態 AI 在提升數位素養與打擊不實資訊方面的潛力。
Google DeepMind 宣布,搭載全新「Deep Think」思考技術的進階版 Gemini 模型,在國際奧林匹亞數學競賽(IMO)的測試中正式達到了金牌得主的水準。這項突破展示了 AI 在處理極具挑戰性的代數、組合數學、幾何和數論等複雜推理問題上的巨大進步。此成果不僅是 AI 數學推理能力的里程碑,也代表著強化學習與系統化思考(System 2 thinking)在大型語言模型上的成功應用。
Google DeepMind 宣布更新並強化其「前沿安全框架」(Frontier Safety Framework, FSF)。該框架是 DeepMind 用於預防先進 AI 模型引發極端風險的核心機制。本次強化重點在於提升對模型潛在危害(如網路安全、生物安全及自主複製等)的偵測與評估能力,並建立更明確的預警與緩解機制,以確保前沿技術在安全可控的範圍內發展。
Google DeepMind 發表 Gemini Robotics 1.5,旨在將 AI Agent 的能力帶入實體世界。透過此系統,機器人將具備更強大的環境感知、多步驟任務規劃、邏輯思考、工具使用以及實體行動能力。這項進展代表著「實體代理(Physical Agents)」時代的開啟,能更有效率地解決現實世界中複雜且多步驟的實體任務。
Google 正式在 Gemini 應用程式中為 Google AI Ultra 訂閱者推出「Deep Think」深度思考功能。此外,Google 也向特定的數學家開放了曾參加國際數學奧林匹亞(IMO)競賽的 Gemini 2.5 Deep Think 完整版模型,讓專業人士能體驗其強大的數學推理能力。
Google DeepMind 宣布 Gemini 應用程式中的原生圖片編輯功能迎來重大升級。用戶現在可以直接在 Gemini 介面中,以更強大且直覺的新方式調整與轉換圖片。此更新簡化了過去繁瑣的修改流程,讓創作者與一般用戶能更輕鬆地進行局部修改、物件增減或背景調整,大幅提升圖像創作的效率。
Google DeepMind 發表全新的 Gemini 2.5 Computer Use 專用模型,目前已透過 API 提供預覽。該模型基於 Gemini 2.5 Pro 的強大能力進行微調,旨在賦能 AI 代理(Agents)直接與作業系統及應用程式的用戶介面(UI)進行互動。這項技術將加速自動化工作流程的開發,讓 AI 能夠像人類一樣執行點擊、輸入和導覽等電腦操作。
賓州大學華頓商學院教授 Ethan Mollick 釋出最新 AI 實用指南。他指出,目前主流模型各有擅場:Claude 3.5 Sonnet 適合寫作與程式,GPT-4o 語音與綜合能力強,Gemini 則以超大上下文見長。他強調,使用者應將 AI 視為「聰明但缺乏經驗的實習生」,透過持續對話與回饋來突破「不規則邊界(Jagged Frontier)」,才能真正發揮 AI 的生產力潛能。
知名 AI 學者 Ethan Mollick 提出「與魔法師共事」的隱喻,指出當前 AI 並非傳統軟體,而是具備強大卻不穩定能力的魔法師。在「參差不齊的技術前沿(Jagged Frontier)」上,AI 可能在困難任務上表現驚人,卻在簡單任務上出錯。人類必須學會扮演「驗證者」,透過深度整合(如半人馬或賽博格模式)來駕馭這股魔法般的技術。
Vercel 官方分享了「Shipped on Vercel」所代表的全新軟體開發浪潮。隨著 AI 技術與前端工具的爆發,現代軟體開發正經歷根本性變革。開發者與創作者正利用 Vercel AI SDK、v0 以及 Next.js,以極致的速度將創意轉化為動態、AI 原生的 Web 應用與 SaaS 產品,徹底改變了軟體的交付速度與使用者體驗。
Hugging Face 發表全新基準測試「FutureBench」,旨在評估 AI Agent 在預測未來事件(如地緣政治、金融市場及科技趨勢)上的表現。該測試挑戰了 Agent 的資訊檢索、機率推理與時間推理能力,有效避免了傳統基準測試中常見的資料洩漏問題。評估結果顯示,目前的 AI Agent 在面對未知的未來事件時,預測準確度與人類專家仍有顯著差距。
Vercel 宣布推出「AI Cloud」統一平台,旨在解決 AI 應用開發中基礎設施碎片化的痛點。該平台深度整合了 Vercel AI SDK,提供動態模型路由、智慧快取與無伺服器 GPU 運算能力。開發者現在可以從前端 UI(結合 v0)到後端 AI 邏輯、監控與擴展,在同一個生態系中高效完成,大幅降低構建生產級 AI 應用的門檻與成本。
Google DeepMind 宣布推出「Gemini Robotics On-Device」模型。這是一款專為本地(裝置端)運作設計的高效機器人 AI 模型,旨在賦予機器人通用的靈巧操作能力(general-purpose dexterity),並能針對新任務進行快速適應(fast task adaptation),大幅提升邊緣端機器人的自主與反應能力。
知名 AI 學者 Ethan Mollick 整理了最新的 AI 實用指南,解答「該用哪款 AI」與「如何使用」的核心問題。他強調應直接使用最頂尖的 Frontier Models(如 GPT、Claude、Gemini),並將 AI 視為「聰明但缺乏常識的實習生」。指南涵蓋日常寫作、程式開發、資料搜尋與多媒體生成等四大領域的推薦工具與實戰心法。
Google DeepMind 宣布擴展其 Gemini 2.5 模型家族。先前推出的 Gemini 2.5 Flash 與 Gemini 2.5 Pro 現已達到正式商用(GA)階段。同時,Google 還推出了全新的 Gemini 2.5 Flash-Lite,這是目前 Gemini 2.5 家族中速度最快、成本最低的模型,旨在為開發者提供極致的性價比與低延遲體驗。
Google DeepMind 宣布 Gemini 2.5 思考模型家族的最新更新。其中,具備強大推理能力的 Gemini 2.5 Pro 已達到穩定版(Stable)階段;主打快速高效的 Gemini 2.5 Flash 進入一般可用性(GA)階段;此外,官方還推出了全新的超輕量模型 Gemini 2.5 Flash-Lite 供開發者預覽,進一步擴展了其 AI 模型的應用場景與性價比選擇。
Google DeepMind 宣布 Gemini 2.5 在 AI 語音對話與音訊生成上取得重大突破。新功能大幅提升了語音互動的流暢度、自然度與即時性,並支援更進階的音訊生成技術。這項更新將為開發者與企業帶來更具沉浸感的語音應用與全新一代的語音 Agent 體驗。
Google 在 I/O 大會上宣布推出「SynthID Detector」全新入口網站。該平台旨在幫助使用者辨識在網路上看到的內容是否由 AI 生成。透過整合 Google DeepMind 的 SynthID 隱形浮水印技術,此工具提供了一個直觀且公開的管道,讓大眾能更透明地了解數位內容的來源與真實性。
Google DeepMind 宣布更新 Gemini 2.5 系列模型。備受開發者喜愛的 Gemini 2.5 Pro 將推出實驗性的「Deep Think」增強推理模式,大幅提升複雜問題的解決能力;同時,主打輕量高效的 Gemini 2.5 Flash 也獲得全新升級,帶來更強大的功能與效能表現。
Google DeepMind 發表了建構通用 AI 助手的長期願景,核心在於將 Gemini 擴展為一個「世界模型(World Model)」。 透過模擬真實世界的運作方式,Gemini 將不僅能處理多模態資訊,還能主動進行規劃並想像全新的體驗。 這項技術突破旨在讓 AI 助手具備更深度的環境理解與預測能力,為未來的通用人工智慧(AGI)奠定基礎。
Google announced new generative media models and tools at I/O 2025, led by Veo 3 for video, Imagen 4 for images, and Flow for AI filmmaking. Veo 3 adds audio generation, while Imagen 4 improves detail, typography, aspect ratios, and up to 2K output. Google also expanded Lyria 2 and Lyria RealTime access, while continuing SynthID watermarking and launching SynthID Detector.