Google 在 I/O 大會上正式推出 Gemini 3.5 Flash,跳過預覽版直接進入一般可用階段,並將全面導入 Google 搜尋、Gemini App 及開發者平台。然而,新模型的 API 價格大幅上漲,輸入與輸出費用分別為每百萬代幣 1.5 美元與 9 美元,是前代 Flash 預覽版的 3 倍,顯示出各大 AI 廠商正開始測試市場對高定價的接受度。
OpenAI 推出全新一代即時語音與音訊 API,包含 GPT-Realtime-2、GPT-Translate 以及 GPT-Whisper。這些 API 將 GPT-5 的強大能力導入語音領域,提供全新業界領先(SOTA)的即時語音互動、多語言翻譯與語音識別效能,展現了 OpenAI 將 GPT-5 架構全面鋪設至各類應用場景的野心。
Vercel AI SDK 正式加入 WhatsApp 轉接器(Adapter)支援。這項更新讓開發者能利用 Vercel AI SDK 的統一 API,快速將 AI 模型(如 GPT、Claude 等)與 WhatsApp Business API 對接。開發者無需自行處理繁瑣的通訊協定轉換,即可輕鬆打造具備對話能力的 WhatsApp AI 助理與客服機器人。
Google DeepMind 宣布推出改進後的 Gemini 音訊模型,專為即時語音體驗進行優化。新模型採用原生多模態架構,無需經過「語音轉文字」的中介步驟,即可直接理解並生成語音,大幅降低延遲。這項升級將賦予開發者構建更具情感表現力、反應更迅速的語音助理與互動應用的能力,並已陸續在 Google AI Studio 與 Vertex AI 上線。
Google DeepMind 發表全新的 Gemini 2.5 Computer Use 專用模型,目前已透過 API 提供預覽。該模型基於 Gemini 2.5 Pro 的強大能力進行微調,旨在賦能 AI 代理(Agents)直接與作業系統及應用程式的用戶介面(UI)進行互動。這項技術將加速自動化工作流程的開發,讓 AI 能夠像人類一樣執行點擊、輸入和導覽等電腦操作。
xAI 宣布開放旗下旗艦模型 Grok 3 以及全新輕量級模型 Grok 3-mini 的 API 服務。Grok 3-mini 的輸出定價極具市場競爭力,每百萬 token 僅需 0.5 美元。官方聲稱這款輕量模型性能可媲美體積大得多的前沿模型,並能展示完整的推理思考過程(reasoning traces),為開發者在構建 AI 應用時提供高性價比的推理新選擇。
影片生成競技場(Video Arena)排名前兩名的 SOTA 模型 Google Veo 2 與 Kling 2 正式向開發者全面開放(GA)。Google Veo 2 已整合至 Gemini API,主打每秒生成僅需 0.35 美元的超低價格;而來自中國的 Kling 2 則以約 10 秒 2 美元的價格推出,但設有每月 700 美元(需簽 3 個月)的最低消費門檻。兩大模型的開放象徵著高品質 AI 影片生成正式進入開發者應用的實用化階段。
Sam Altman 宣傳了 ChatGPT 的「記憶(Memory)」功能更新,同時市場傳出 o3、o4-mini 即將推出,以及 GPT-4o 將升級為 GPT-4.1 的洩露消息。 xAI 正式推出 Grok 3 與 Grok 3 mini 的 API,Epoch AI 曾短暫證實其具備 o1 等級的推理能力。 社群方面,Qwen3 宣布延期推出,而 AI Engineer World's Fair 2025 也正展開熱烈徵稿。
Stability AI 正式推出最新一代文字生成圖片模型 Stable Diffusion 3.5,並已同步上架至 AI 雲端託管平台 Replicate。開發者與創作者現在無需自行配置高規格 GPU 顯示卡,即可直接透過 Replicate 提供的雲端 API 快速將 SD 3.5 整合至自己的應用程式或工作流中,極大地降低了開發與部署的門檻。
AI 模型託管平台 Replicate 宣布完成 4,000 萬美元的 B 輪融資,由知名創投 a16z 領投。這筆資金將用於擴展其雲端基礎設施,幫助更多企業與開發者透過簡單的 API 運行、微調及部署開源 AI 模型。此融資反映出企業級市場對於開源 AI(如 Llama、Stable Diffusion)的需求正迎來爆發性成長。
Meta 推出新一代開源大語言模型 Llama 2(包含 7B、13B、70B 參數版本)後,在 AI 社群引發連鎖反應。Replicate 在第一時間託管了這些模型並提供 API 服務。本文彙整了發布後 24 小時內,包含雲端部署、API 呼叫及社群生態的最新進展,展現開源 AI 領域的驚人迭代速度。