Google DeepMind 發表了建構通用 AI 助手的長期願景,核心在於將 Gemini 擴展為一個「世界模型(World Model)」。 透過模擬真實世界的運作方式,Gemini 將不僅能處理多模態資訊,還能主動進行規劃並想像全新的體驗。 這項技術突破旨在讓 AI 助手具備更深度的環境理解與預測能力,為未來的通用人工智慧(AGI)奠定基礎。
Google 正式發表 Gemini 2.5 Flash,在 LMArena 的性價比曲線(Pareto Frontier)上展現極強的主導地位。此版本定價精準填補了 2.0 Flash 與 2.5 Pro 之間的空白。最受矚目的新功能是「思考預算(Thinking Budget)」,允許開發者精確設定思考 Token 的上限,相較於 OpenAI 與 Anthropic 僅提供粗略的強弱設定,給予開發者更細緻的控制權。社群普遍認為 Google 近期的執行力與產品發布節奏已完全甦醒。
影片生成競技場(Video Arena)排名前兩名的 SOTA 模型 Google Veo 2 與 Kling 2 正式向開發者全面開放(GA)。Google Veo 2 已整合至 Gemini API,主打每秒生成僅需 0.35 美元的超低價格;而來自中國的 Kling 2 則以約 10 秒 2 美元的價格推出,但設有每月 700 美元(需簽 3 個月)的最低消費門檻。兩大模型的開放象徵著高品質 AI 影片生成正式進入開發者應用的實用化階段。
Google 在 Cloud Next 大會上宣布雙重重磅消息:全面支援 Anthropic 的 MCP 協定,並推出全新的 Agent2Agent (A2A) 協定。A2A 旨在與 MCP 互補,解決跨遠端 Agent 溝通的痛點。該規範包含 Agent Card、Task 機制、企業級認證與推播支援,並同步開源了草案規範與 Agent 開發套件(ADK)。
Vercel 宣布推出全新的 Chatbot 模板,旨在簡化開發者建構 AI 對話介面的流程。該模板基於 Next.js 與 Vercel AI SDK 開發,支援即時串流響應、工具調用(Tool Calling)以及多種主流 LLM 供應商。開發者可以一鍵部署至 Vercel,並輕鬆自訂 UI 與後端邏輯,是打造現代 AI 助理與對話式應用的理想起步工具。
Vercel 宣布在其 AI Gateway 服務中推出「自定義報告」功能。開發者現在可以針對 AI 應用的各項指標(如 Token 使用量、API 呼叫成本、延遲與錯誤率)建立專屬的數據圖表。這項更新大幅提升了 AI 應用的可觀測性與成本控管能力,特別適合需要精細化營運的多模型應用團隊。
Vercel 正式推出 AI SDK 4.2,專注於提升 Agentic(代理)開發體驗。此版本優化了多步驟工具調用(`maxSteps`)的控制、增強了 `streamObject` 的結構化數據輸出,並提供更完善的 OpenTelemetry 監控支援。同時,新版本也深化了與 React 19 和 Next.js 的整合,讓前端開發者能更輕鬆地構建高效、可觀測的 AI 應用。
Hugging Face 推出全新教學,指導開發者如何利用 React Native 在 iOS 與 Android 手機上進行邊緣端(Edge)LLM 本地推理。文章介紹了如何整合輕量化模型(如 Qwen 或 Phi)與移動端推理引擎,幫助開發者打造具備高隱私、低延遲且支援離線使用的行動 App。
Vercel 正式發布 AI SDK 4.1。本次更新重點在於簡化 AI Agent 的開發,透過 `maxSteps` 參數即可自動處理多回合的 Tool Calling。同時,`useChat` 新增了更完善的多模態檔案上傳與狀態管理支援,並優化了 OpenTelemetry 遙測功能,讓開發者能更輕鬆地在 Next.js 等框架中建構、監控複雜的 AI 應用。
Google 發表全新一代輕量級視覺語言模型 PaliGemma 2,基於 SigLIP 視覺編碼器與 Gemma 2 文本解碼器。本次釋出包含 3B、10B 與 28B 三種參數規模,並提供多種輸入解析度(最高達 896x896)。PaliGemma 2 在圖像描述、視覺問答、目標檢測與文件理解等任務上表現優異,且已全面整合至 Hugging Face 生態系,支援快速微調與部署。
本文介紹了 Hugging Face、Keras 與 Google TPU 團隊合作的最新實驗,旨在評估大語言模型(LLM)在被指出錯誤後的「自我糾錯」能力。實驗採用類似 Chatbot Arena 的雙盲測試,利用 Keras 的多後端優勢與 TPU 的強大算力,測試多款開源模型。結果顯示,多數模型在沒有外部具體反饋的情況下,自我糾錯能力仍有極大提升空間。
Vercel 推出 AI SDK 4.0,帶來重大架構變革。本次更新宣布將舊有的 React Server Components (RSC) 方案列為棄用,改為推薦使用更簡單、穩定的 AI SDK Core(如 streamText)與 AI SDK UI(如 useChat)組合。此外,新版本全面整合了 OpenTelemetry 監控,並優化了多模態與工具調用(Tool Calling)的開發體驗。
針對資源有限的獨立開發者,本文探討如何透過 Vercel 平台與 Vercel AI SDK 簡化 AI 應用開發。藉由 SDK 提供的統一 API、串流傳輸(Streaming)與 React Hooks,開發者能免去繁雜的後端架構管理,專注於打造流暢的用戶體驗,並實現快速迭代。
Vercel 推出 AI SDK 3.3,重點更新包含:首度內建 OpenTelemetry 支援,讓開發者能深度監控 AI 呼叫效能與 Token 消耗;新增 maxSteps 參數,支援自動化多步驟工具調用(Multi-step Tool Calling),簡化 Agent 開發;並針對結構化輸出(streamObject)與各大主流模型 Provider 進行了效能優化。
Vercel 發布企業 AI 整合指南,指引企業如何從 AI 概念驗證走向生產環境。指南強調不應綁定單一模型,而應利用 Vercel AI SDK 建立多模型架構。此外,優秀的 AI 體驗需超越傳統聊天對話框,導入 Generative UI 與即時串流技術,並透過 Serverless 基礎設施與邊緣運算解決延遲與逾時問題,最後搭配完善的安全評估機制,確保企業級應用的穩定與安全。
Vercel 正式發布 AI SDK 3.2,本次更新帶來兩大核心功能:首先是全新的 `embed` 與 `embedMany` API,讓開發者能輕鬆生成向量嵌入以支援 RAG 應用;其次是支援 `maxSteps` 參數,實現自動化的多步驟工具調用(Multi-step Tool Calling),讓 AI 能在單次呼叫中連續執行多個工具,極大提升了建構 AI Agent 的效率與靈活性。
傳統的 HumanEval 程式碼評測基準已逐漸飽和且過於簡單。Hugging Face 與研究團隊合作推出新一代基準 BigCodeBench,包含 1,140 個實用編程任務,涵蓋 139 個第三方 Python 函式庫。此基準旨在考驗 LLM 在複雜、多步驟及真實開發場景下的程式碼生成與指令遵循能力,成為評估 Code LLM 的新一代標準。
在 Vercel Ship 大會後,官方整理了專家們對於開發者如何入門 AI 的核心建議。文章強調開發者不需從頭訓練模型,應專注於利用現成 API 與 Vercel AI SDK 進行整合。專家指出,優化 AI 應用的關鍵在於提升使用者體驗(如串流輸出)與實作工具呼叫(Tool Calling),並建議從簡單的 Prompt 工程開始,逐步引入 RAG 與評估機制。
Vercel 官方部落格整理了 7 個現代網頁應用必備的 AI 功能,並展示如何利用 Vercel AI SDK 快速實現。這些功能涵蓋了即時串流聊天、結構化 JSON 輸出、工具調用(Tool Calling)、動態生成式 UI(Generative UI)、語意搜尋(RAG)、圖像生成以及語音整合。這篇文章為想要提升產品體驗的 Web 開發者提供了具體的實作方向與程式碼範例。
Vercel 正式發布 AI SDK 3.1,並宣布開源專案 ModelFusion 的創辦人 Lars Grammel 加入 Vercel 團隊。本次更新引入了全新的 Core API(如 generateText 與 streamText),提供統一且型別安全的介面來操作各大 LLM。此外,新版本大幅簡化了結構化資料生成(Structured Outputs)與工具調用(Tool Calling)的開發流程。
Google 官方正式發布 CodeGemma 程式碼模型系列,基於 Gemma 架構。提供專攻 IDE 程式碼補全(Fill-in-the-Middle)的 2B 版本,以及適合程式碼生成與對話的 7B 版本。該系列模型已深度整合至 Hugging Face 生態系,支援多種主流程式語言,為開發者提供高效且可本地運行的開源 AI 助手選擇。
Hugging Face 發表全新基準測試「ConTextual」並上線排行榜。該基準專注於評估多模態大模型(MLLM)在處理「富含文本的圖像」(如圖表、資訊圖表、街景招牌等)時的圖文聯合推理能力。這項測試超越了單純的 OCR 文字識別,更考驗模型結合視覺上下文與文本進行深度推理的實力,為評估當前頂尖多模態模型提供了更貼近真實應用場景的標準。
本指南介紹如何在 Hugging Face 生態系中微調 Google 的 Gemma 開源模型(2B 與 7B)。文章詳細說明了如何利用 PEFT(參數高效微調)技術,特別是 QLoRA(4-bit 量化微調),在消費級 GPU 上進行訓練。透過結合 transformers、peft 與 trl(SFTTrainer)等套件,開發者可以輕鬆載入模型、設定 LoRA 參數、格式化數據集,並將微調後的權重上傳至 Hugging Face Hub,是實作 Gemma 微調的必讀教學。
Google 正式推出全新開源模型家族 Gemma,包含 2B 與 7B 兩種參數大小,並提供預訓練與指令微調版本。 Gemma 採用與 Gemini 相同的技術與架構,在多項基準測試中表現優於同尺寸的 Llama 2 與 Mistral。 Hugging Face 已同步支援 Gemma,開發者可直接透過 Transformers、TGI、PEFT 等工具進行部署與微調。
Hugging Face 推出全新的 NPHardEval 排行榜,旨在透過計算複雜度理論(如 P、NP-Complete、NP-Hard 問題)來嚴格評估大型語言模型(LLM)的邏輯推理與規劃能力。為了解決傳統基準測試容易因訓練數據污染而失效的問題,NPHardEval 採用動態更新機制,定期生成全新測驗。這項工具能幫助研究人員更準確地衡量模型在面對複雜優化問題時的真實推理極限。