Google DeepMind 發表 Gemini Robotics 1.5,旨在將 AI Agent 的能力帶入實體世界。透過此系統,機器人將具備更強大的環境感知、多步驟任務規劃、邏輯思考、工具使用以及實體行動能力。這項進展代表著「實體代理(Physical Agents)」時代的開啟,能更有效率地解決現實世界中複雜且多步驟的實體任務。
Google DeepMind 發表全新 AI Agent「CodeMender」,旨在解決軟體安全中的關鍵漏洞修復難題。CodeMender 不僅能自動偵測程式碼中的安全漏洞,還能主動生成修復補丁並進行驗證。這項技術結合了先進的大型語言模型與自動化測試,大幅提升了軟體開發生命週期中的安全性與修復效率。
Google 正式在 Gemini 應用程式中為 Google AI Ultra 訂閱者推出「Deep Think」深度思考功能。此外,Google 也向特定的數學家開放了曾參加國際數學奧林匹亞(IMO)競賽的 Gemini 2.5 Deep Think 完整版模型,讓專業人士能體驗其強大的數學推理能力。
Google DeepMind 發表全新開源平台「Game Arena」,旨在解決傳統 AI 基準測試逐漸失效的問題。該平台讓不同的前沿 AI 模型在具有明確勝負規則的遊戲環境中進行直接對決。透過這種動態且具對抗性的方式,Game Arena 能更精準、客觀地評估 AI 的決策與推理能力,為 AI 領域提供更具公信力的衡量標準。
Google DeepMind 發表了 VaultGemma,這是全球首款從頭開始(from scratch)使用差分隱私(Differential Privacy, DP)技術訓練的高性能大語言模型。透過嚴格的數學隱私保證,VaultGemma 能有效防止訓練數據洩露與敏感資訊記憶,同時在多項基準測試中保持極高的實用性,為醫療、金融等高隱私需求領域帶來全新突破。
Google DeepMind 發表全新的 Gemini 2.5 Computer Use 專用模型,目前已透過 API 提供預覽。該模型基於 Gemini 2.5 Pro 的強大能力進行微調,旨在賦能 AI 代理(Agents)直接與作業系統及應用程式的用戶介面(UI)進行互動。這項技術將加速自動化工作流程的開發,讓 AI 能夠像人類一樣執行點擊、輸入和導覽等電腦操作。
Vercel 宣布在 Vercel AI Cloud 上推出「免設定後端(Zero-config Backends)」功能。此更新旨在簡化 AI 應用的後端部署,開發者只需專注於編寫 AI 邏輯,系統會自動處理伺服器配置、環境變數與 API 路由。該功能與 Vercel AI SDK 深度整合,大幅降低了建構高效能、具備串流與代理功能之 AI 應用的門檻。
賓州大學華頓商學院教授 Ethan Mollick 釋出最新 AI 實用指南。他指出,目前主流模型各有擅場:Claude 3.5 Sonnet 適合寫作與程式,GPT-4o 語音與綜合能力強,Gemini 則以超大上下文見長。他強調,使用者應將 AI 視為「聰明但缺乏經驗的實習生」,透過持續對話與回饋來突破「不規則邊界(Jagged Frontier)」,才能真正發揮 AI 的生產力潛能。
知名 AI 學者 Ethan Mollick 提出「與魔法師共事」的隱喻,指出當前 AI 並非傳統軟體,而是具備強大卻不穩定能力的魔法師。在「參差不齊的技術前沿(Jagged Frontier)」上,AI 可能在困難任務上表現驚人,卻在簡單任務上出錯。人類必須學會扮演「驗證者」,透過深度整合(如半人馬或賽博格模式)來駕馭這股魔法般的技術。
Vercel 宣布將 AI SDK 與 AI Gateway 整合至 GitHub Actions。開發者現在可以在 CI/CD 自動化流程中,直接利用 AI SDK 進行自動化測試、模型評估(Evals)或 PR 審查,並透過 AI Gateway 進行 API 呼叫的快取、監控與成本控制,有效降低 CI 期間的 LLM 呼叫成本並提升穩定性。
Vercel 發表其「開放 SDK 策略」(Open SDK strategy),強調 Vercel AI SDK 的開放性與互操作性。該策略專注於提供跨模型供應商(如 OpenAI、Anthropic、Gemini)的統一 API,並支援多種前端框架與執行環境。透過社群驅動的 Provider 機制與標準化的工具調用(Tool Calling)及結構化輸出,Vercel 旨在降低 AI 應用的開發門檻,建立去中心化的 AI 開發生態系。
Vercel 宣布 AI Gateway 正式進入一般可用(GA)階段。此服務旨在解決 AI 應用在生產環境中面臨的 API 不穩定、成本難控與延遲問題。透過內建的自動重試、備用路徑(Fallbacks)、快取與限流機制,開發者能輕鬆構建高可用性的 AI 應用,並透過統一面板監控所有 LLM 的調用數據與成本。
Vercel 官方分享了「Shipped on Vercel」所代表的全新軟體開發浪潮。隨著 AI 技術與前端工具的爆發,現代軟體開發正經歷根本性變革。開發者與創作者正利用 Vercel AI SDK、v0 以及 Next.js,以極致的速度將創意轉化為動態、AI 原生的 Web 應用與 SaaS 產品,徹底改變了軟體的交付速度與使用者體驗。
Vercel 發表 AI SDK 5,此版本專為構建複雜的 AI 應用與 Agentic 工作流而設計。新版本強化了多模態輸入輸出、多代理(Multi-agent)協作架構,並內建更完善的 OpenTelemetry 監控支援。此外,針對 React Server Components (RSC) 與主流前端框架的整合也獲得進一步優化,讓開發者能更輕鬆地打造高效能的 AI 體驗。
Hugging Face 介紹了全新的影片多模態基準測試「TimeScope」,旨在評估 Video LMM 處理長影片的能力。現有基準多侷限於短影片,而 TimeScope 挑戰模型在長時段影片中的時間推理、事件排序與資訊檢索。測試結果顯示,多數現行模型在影片長度增加時,理解與推理能力會顯著下降,揭示了現有技術的瓶頸。
Hugging Face 發表全新基準測試「FutureBench」,旨在評估 AI Agent 在預測未來事件(如地緣政治、金融市場及科技趨勢)上的表現。該測試挑戰了 Agent 的資訊檢索、機率推理與時間推理能力,有效避免了傳統基準測試中常見的資料洩漏問題。評估結果顯示,目前的 AI Agent 在面對未知的未來事件時,預測準確度與人類專家仍有顯著差距。
Vercel 宣布推出「AI Cloud」統一平台,旨在解決 AI 應用開發中基礎設施碎片化的痛點。該平台深度整合了 Vercel AI SDK,提供動態模型路由、智慧快取與無伺服器 GPU 運算能力。開發者現在可以從前端 UI(結合 v0)到後端 AI 邏輯、監控與擴展,在同一個生態系中高效完成,大幅降低構建生產級 AI 應用的門檻與成本。
Vercel 年度盛會 Ship 2025 發表多項重大更新,全面加速 AI 應用的開發與部署。本次焦點包含 v0 從 UI 生成演進為全端應用構建助手、Vercel AI SDK 針對 AI Agent 工作流的深度優化,以及 Next.js 基礎設施的效能提升。Vercel 展現了其從託管平台轉型為 AI 時代開發樞紐的野心。
Google 最新推出的 Gemma 3n 模型系列已正式在 Hugging Face 開源社群全面上線。此版本針對端側部署(On-device)與高效能推論進行優化,Hugging Face 生態系已提供完整支援。開發者現在可以無縫使用 Transformers、vLLM、TRL 等工具進行部署、推論與微調,為輕量級與邊緣運算 AI 應用提供了全新的強大選擇。
Vercel 宣布其 AI Gateway 服務正式進入 Beta 測試階段。此工具旨在簡化開發者整合多個 LLM 供應商的流程,提供統一的 API 接口。AI Gateway 具備邊緣快取(Edge Caching)、速率限制(Rate Limiting)、即時分析與自動重試等功能,能有效降低 AI 應用的延遲與 API 呼叫成本,並提升系統的穩定性。
Google DeepMind 宣布推出「Gemini Robotics On-Device」模型。這是一款專為本地(裝置端)運作設計的高效機器人 AI 模型,旨在賦予機器人通用的靈巧操作能力(general-purpose dexterity),並能針對新任務進行快速適應(fast task adaptation),大幅提升邊緣端機器人的自主與反應能力。
知名 AI 學者 Ethan Mollick 整理了最新的 AI 實用指南,解答「該用哪款 AI」與「如何使用」的核心問題。他強調應直接使用最頂尖的 Frontier Models(如 GPT、Claude、Gemini),並將 AI 視為「聰明但缺乏常識的實習生」。指南涵蓋日常寫作、程式開發、資料搜尋與多媒體生成等四大領域的推薦工具與實戰心法。
Google DeepMind 宣布 Gemini 2.5 思考模型家族的最新更新。其中,具備強大推理能力的 Gemini 2.5 Pro 已達到穩定版(Stable)階段;主打快速高效的 Gemini 2.5 Flash 進入一般可用性(GA)階段;此外,官方還推出了全新的超輕量模型 Gemini 2.5 Flash-Lite 供開發者預覽,進一步擴展了其 AI 模型的應用場景與性價比選擇。
Google DeepMind 宣布擴展其 Gemini 2.5 模型家族。先前推出的 Gemini 2.5 Flash 與 Gemini 2.5 Pro 現已達到正式商用(GA)階段。同時,Google 還推出了全新的 Gemini 2.5 Flash-Lite,這是目前 Gemini 2.5 家族中速度最快、成本最低的模型,旨在為開發者提供極致的性價比與低延遲體驗。
Vercel 提出了一套「務實(No-nonsense)」的 AI Agent 開發方法論。文章指出,許多開發者陷入了過度複雜的 Agent 框架陷阱,導致系統難以偵錯且成本高昂。Vercel 建議回歸以代碼為中心的開發模式,利用 TypeScript 處理狀態與控制流,並將 LLM 定位為結構化工具調用器。透過 Vercel AI SDK,開發者能更輕鬆地實現串流傳輸、生成式 UI 與可靠的步驟監控,構建出真正能上線的生產級應用。
Google DeepMind 宣布 Gemini 2.5 在 AI 語音對話與音訊生成上取得重大突破。新功能大幅提升了語音互動的流暢度、自然度與即時性,並支援更進階的音訊生成技術。這項更新將為開發者與企業帶來更具沉浸感的語音應用與全新一代的語音 Agent 體驗。
Vercel 正式推出 AI Gateway,旨在解決開發者在整合多個大語言模型(LLM)API 時面臨的效能、成本與可靠性挑戰。 該服務提供統一的 API 接口,內建自動重試、後備方案(Fallback)以及智慧快取機制,能顯著降低 API 延遲與重複調用成本。 此外,AI Gateway 還配備了即時的用量監控與分析儀表板,並與 Vercel AI SDK 深度整合,讓全端開發者能更輕鬆地構建生產級 AI 應用。
Google announced new generative media models and tools at I/O 2025, led by Veo 3 for video, Imagen 4 for images, and Flow for AI filmmaking. Veo 3 adds audio generation, while Imagen 4 improves detail, typography, aspect ratios, and up to 2K output. Google also expanded Lyria 2 and Lyria RealTime access, while continuing SynthID watermarking and launching SynthID Detector.
Google 在 I/O 大會上宣布推出「SynthID Detector」全新入口網站。該平台旨在幫助使用者辨識在網路上看到的內容是否由 AI 生成。透過整合 Google DeepMind 的 SynthID 隱形浮水印技術,此工具提供了一個直觀且公開的管道,讓大眾能更透明地了解數位內容的來源與真實性。
Google DeepMind 宣布更新 Gemini 2.5 系列模型。備受開發者喜愛的 Gemini 2.5 Pro 將推出實驗性的「Deep Think」增強推理模式,大幅提升複雜問題的解決能力;同時,主打輕量高效的 Gemini 2.5 Flash 也獲得全新升級,帶來更強大的功能與效能表現。