隨著 AI 提供的決策與建議在工作中變得越來越重要,傳統的簡單測試已不足以評估其極限。華頓商學院教授 Ethan Mollick 指出,我們需要透過結構化的「工作面試」流程,包含情境問答、極限測試與邏輯追問,來評估 AI 在特定任務中的真實實力、潛在偏見與幻覺機率,從而決定如何安全地與其協作。
北愛爾蘭教育局的 C2k 計劃與 Google 展開為期六個月的試點項目,評估生成式 AI 在教育現場的實際應用。結果指出,透過導入 Gemini 等 AI 工具,參與教師平均每週成功節省了 10 小時。這些省下的時間讓教師能更專注於課堂教學與學生互動,有效緩解了教學現場的行政負擔。
Vercel AI Gateway 正式推出「模型備援 (Model Fallbacks)」功能。當開發者設定的首選 AI 模型因 API 限制、伺服器故障或超時而無法回應時,系統會自動將請求導向預設的備用模型。這項功能讓開發者無需在應用程式碼中手動撰寫複雜的錯誤處理與重試邏輯,大幅提升了 AI 應用的可用性與容錯能力。
Vercel 舉辦了 Ship AI 2025 線上發表會,彙整其在 AI 網頁開發領域的最新突破。本次重點包括生成式 UI 工具 v0 的「全端生成」重大升級、Vercel AI SDK 對於多代理人(Multi-agent)協同工作流的架構級支援,以及針對 AI 串流與邊緣運算(Edge)的基礎設施改良,旨在幫助開發者更輕鬆地建構、部署與擴展高效能的 AI 應用。
Google DeepMind 宣佈 Gemini 2.5 Flash-Lite 結束預覽階段,正式推出穩定版(GA)。這款主打高性價比的輕量級模型,在維持小體積與低成本的同時,依然提供極高的輸出品質。它完整繼承了 Gemini 2.5 家族的強大功能,包含 100 萬 token 的超長上下文視窗與多模態處理能力,非常適合開發者與企業用於需要大規模部署與快速響應的生產環境。
Google DeepMind 發表全新實驗性 AI 工具「Backstory」,旨在幫助使用者探索網路圖片的脈絡與起源。該工具能分析圖片的傳播歷史、原始出處及可能的修改痕跡,協助使用者在假訊息充斥的網路環境中辨識真偽。這項技術展現了多模態 AI 在提升數位素養與打擊不實資訊方面的潛力。
Google DeepMind 宣布,搭載全新「Deep Think」思考技術的進階版 Gemini 模型,在國際奧林匹亞數學競賽(IMO)的測試中正式達到了金牌得主的水準。這項突破展示了 AI 在處理極具挑戰性的代數、組合數學、幾何和數論等複雜推理問題上的巨大進步。此成果不僅是 AI 數學推理能力的里程碑,也代表著強化學習與系統化思考(System 2 thinking)在大型語言模型上的成功應用。
Google DeepMind 發表最新突破,旗下 Gemini 2.5 Deep Think 模型在國際大學生程式設計競賽(ICPC)世界總決賽中展現出金牌等級的表現。這項成就代表 AI 在抽象問題解決、複雜演算法設計與程式碼除錯能力上取得了巨大飛躍。該模型透過深度思考與自我修正機制,成功攻克了原本只有全球頂尖人類程式設計師才能解決的難題。
Google DeepMind 宣布更新並強化其「前沿安全框架」(Frontier Safety Framework, FSF)。該框架是 DeepMind 用於預防先進 AI 模型引發極端風險的核心機制。本次強化重點在於提升對模型潛在危害(如網路安全、生物安全及自主複製等)的偵測與評估能力,並建立更明確的預警與緩解機制,以確保前沿技術在安全可控的範圍內發展。
Google DeepMind 發表 Gemini Robotics 1.5,旨在將 AI Agent 的能力帶入實體世界。透過此系統,機器人將具備更強大的環境感知、多步驟任務規劃、邏輯思考、工具使用以及實體行動能力。這項進展代表著「實體代理(Physical Agents)」時代的開啟,能更有效率地解決現實世界中複雜且多步驟的實體任務。
Google DeepMind 發表全新 AI Agent「CodeMender」,旨在解決軟體安全中的關鍵漏洞修復難題。CodeMender 不僅能自動偵測程式碼中的安全漏洞,還能主動生成修復補丁並進行驗證。這項技術結合了先進的大型語言模型與自動化測試,大幅提升了軟體開發生命週期中的安全性與修復效率。
Google 正式在 Gemini 應用程式中為 Google AI Ultra 訂閱者推出「Deep Think」深度思考功能。此外,Google 也向特定的數學家開放了曾參加國際數學奧林匹亞(IMO)競賽的 Gemini 2.5 Deep Think 完整版模型,讓專業人士能體驗其強大的數學推理能力。
Google DeepMind 發表全新開源平台「Game Arena」,旨在解決傳統 AI 基準測試逐漸失效的問題。該平台讓不同的前沿 AI 模型在具有明確勝負規則的遊戲環境中進行直接對決。透過這種動態且具對抗性的方式,Game Arena 能更精準、客觀地評估 AI 的決策與推理能力,為 AI 領域提供更具公信力的衡量標準。
Google DeepMind 宣布 Gemini 應用程式中的原生圖片編輯功能迎來重大升級。用戶現在可以直接在 Gemini 介面中,以更強大且直覺的新方式調整與轉換圖片。此更新簡化了過去繁瑣的修改流程,讓創作者與一般用戶能更輕鬆地進行局部修改、物件增減或背景調整,大幅提升圖像創作的效率。
Google DeepMind 發表了 VaultGemma,這是全球首款從頭開始(from scratch)使用差分隱私(Differential Privacy, DP)技術訓練的高性能大語言模型。透過嚴格的數學隱私保證,VaultGemma 能有效防止訓練數據洩露與敏感資訊記憶,同時在多項基準測試中保持極高的實用性,為醫療、金融等高隱私需求領域帶來全新突破。
Google DeepMind 發表全新的 Gemini 2.5 Computer Use 專用模型,目前已透過 API 提供預覽。該模型基於 Gemini 2.5 Pro 的強大能力進行微調,旨在賦能 AI 代理(Agents)直接與作業系統及應用程式的用戶介面(UI)進行互動。這項技術將加速自動化工作流程的開發,讓 AI 能夠像人類一樣執行點擊、輸入和導覽等電腦操作。
Vercel 宣布在 Vercel AI Cloud 上推出「免設定後端(Zero-config Backends)」功能。此更新旨在簡化 AI 應用的後端部署,開發者只需專注於編寫 AI 邏輯,系統會自動處理伺服器配置、環境變數與 API 路由。該功能與 Vercel AI SDK 深度整合,大幅降低了建構高效能、具備串流與代理功能之 AI 應用的門檻。
賓州大學華頓商學院教授 Ethan Mollick 釋出最新 AI 實用指南。他指出,目前主流模型各有擅場:Claude 3.5 Sonnet 適合寫作與程式,GPT-4o 語音與綜合能力強,Gemini 則以超大上下文見長。他強調,使用者應將 AI 視為「聰明但缺乏經驗的實習生」,透過持續對話與回饋來突破「不規則邊界(Jagged Frontier)」,才能真正發揮 AI 的生產力潛能。
知名 AI 學者 Ethan Mollick 提出「與魔法師共事」的隱喻,指出當前 AI 並非傳統軟體,而是具備強大卻不穩定能力的魔法師。在「參差不齊的技術前沿(Jagged Frontier)」上,AI 可能在困難任務上表現驚人,卻在簡單任務上出錯。人類必須學會扮演「驗證者」,透過深度整合(如半人馬或賽博格模式)來駕馭這股魔法般的技術。
Vercel 宣布將 AI SDK 與 AI Gateway 整合至 GitHub Actions。開發者現在可以在 CI/CD 自動化流程中,直接利用 AI SDK 進行自動化測試、模型評估(Evals)或 PR 審查,並透過 AI Gateway 進行 API 呼叫的快取、監控與成本控制,有效降低 CI 期間的 LLM 呼叫成本並提升穩定性。
Vercel 發表其「開放 SDK 策略」(Open SDK strategy),強調 Vercel AI SDK 的開放性與互操作性。該策略專注於提供跨模型供應商(如 OpenAI、Anthropic、Gemini)的統一 API,並支援多種前端框架與執行環境。透過社群驅動的 Provider 機制與標準化的工具調用(Tool Calling)及結構化輸出,Vercel 旨在降低 AI 應用的開發門檻,建立去中心化的 AI 開發生態系。
Vercel 宣布 AI Gateway 正式進入一般可用(GA)階段。此服務旨在解決 AI 應用在生產環境中面臨的 API 不穩定、成本難控與延遲問題。透過內建的自動重試、備用路徑(Fallbacks)、快取與限流機制,開發者能輕鬆構建高可用性的 AI 應用,並透過統一面板監控所有 LLM 的調用數據與成本。
Vercel 官方分享了「Shipped on Vercel」所代表的全新軟體開發浪潮。隨著 AI 技術與前端工具的爆發,現代軟體開發正經歷根本性變革。開發者與創作者正利用 Vercel AI SDK、v0 以及 Next.js,以極致的速度將創意轉化為動態、AI 原生的 Web 應用與 SaaS 產品,徹底改變了軟體的交付速度與使用者體驗。
Vercel 發表 AI SDK 5,此版本專為構建複雜的 AI 應用與 Agentic 工作流而設計。新版本強化了多模態輸入輸出、多代理(Multi-agent)協作架構,並內建更完善的 OpenTelemetry 監控支援。此外,針對 React Server Components (RSC) 與主流前端框架的整合也獲得進一步優化,讓開發者能更輕鬆地打造高效能的 AI 體驗。
Hugging Face 介紹了全新的影片多模態基準測試「TimeScope」,旨在評估 Video LMM 處理長影片的能力。現有基準多侷限於短影片,而 TimeScope 挑戰模型在長時段影片中的時間推理、事件排序與資訊檢索。測試結果顯示,多數現行模型在影片長度增加時,理解與推理能力會顯著下降,揭示了現有技術的瓶頸。
Hugging Face 發表全新基準測試「FutureBench」,旨在評估 AI Agent 在預測未來事件(如地緣政治、金融市場及科技趨勢)上的表現。該測試挑戰了 Agent 的資訊檢索、機率推理與時間推理能力,有效避免了傳統基準測試中常見的資料洩漏問題。評估結果顯示,目前的 AI Agent 在面對未知的未來事件時,預測準確度與人類專家仍有顯著差距。
Vercel 宣布推出「AI Cloud」統一平台,旨在解決 AI 應用開發中基礎設施碎片化的痛點。該平台深度整合了 Vercel AI SDK,提供動態模型路由、智慧快取與無伺服器 GPU 運算能力。開發者現在可以從前端 UI(結合 v0)到後端 AI 邏輯、監控與擴展,在同一個生態系中高效完成,大幅降低構建生產級 AI 應用的門檻與成本。
Vercel 年度盛會 Ship 2025 發表多項重大更新,全面加速 AI 應用的開發與部署。本次焦點包含 v0 從 UI 生成演進為全端應用構建助手、Vercel AI SDK 針對 AI Agent 工作流的深度優化,以及 Next.js 基礎設施的效能提升。Vercel 展現了其從託管平台轉型為 AI 時代開發樞紐的野心。
Google 最新推出的 Gemma 3n 模型系列已正式在 Hugging Face 開源社群全面上線。此版本針對端側部署(On-device)與高效能推論進行優化,Hugging Face 生態系已提供完整支援。開發者現在可以無縫使用 Transformers、vLLM、TRL 等工具進行部署、推論與微調,為輕量級與邊緣運算 AI 應用提供了全新的強大選擇。
Vercel 宣布其 AI Gateway 服務正式進入 Beta 測試階段。此工具旨在簡化開發者整合多個 LLM 供應商的流程,提供統一的 API 接口。AI Gateway 具備邊緣快取(Edge Caching)、速率限制(Rate Limiting)、即時分析與自動重試等功能,能有效降低 AI 應用的延遲與 API 呼叫成本,並提升系統的穩定性。