Google 在 I/O 大會上正式推出 Gemini 3.5 Flash,跳過預覽版直接進入一般可用階段,並將全面導入 Google 搜尋、Gemini App 及開發者平台。然而,新模型的 API 價格大幅上漲,輸入與輸出費用分別為每百萬代幣 1.5 美元與 9 美元,是前代 Flash 預覽版的 3 倍,顯示出各大 AI 廠商正開始測試市場對高定價的接受度。
OpenAI 推出全新一代即時語音與音訊 API,包含 GPT-Realtime-2、GPT-Translate 以及 GPT-Whisper。這些 API 將 GPT-5 的強大能力導入語音領域,提供全新業界領先(SOTA)的即時語音互動、多語言翻譯與語音識別效能,展現了 OpenAI 將 GPT-5 架構全面鋪設至各類應用場景的野心。
Hugging Face 宣布將知名低成本、高效能的推理平台 DeepInfra 整合至其「推理服務商(Inference Providers)」計畫中。現在,開發者在 Hugging Face Hub 上瀏覽開源模型(如 Llama 3、Mistral 等)時,可以直接選擇 DeepInfra 作為後端託管 API,無需自行架設 GPU 基礎設施。這項合作為開發者提供了更多元、更具性價比的無伺服器(Serverless)推理選擇,進一步簡化了 AI 應用的部署流程。
Vercel 官方發布「Agent Skills」常見問答指南,解析如何定義與部署 AI 代理的「技能」(即工具呼叫)。透過 Vercel AI SDK,開發者能使用 Zod 定義 Schema,並在 Serverless 或 Edge 環境安全執行。本文涵蓋技能的運作原理、安全性設計以及如何結合 Generative UI 提升使用者體驗。
Google DeepMind 宣布推出改進後的 Gemini 音訊模型,專為即時語音體驗進行優化。新模型採用原生多模態架構,無需經過「語音轉文字」的中介步驟,即可直接理解並生成語音,大幅降低延遲。這項升級將賦予開發者構建更具情感表現力、反應更迅速的語音助理與互動應用的能力,並已陸續在 Google AI Studio 與 Vertex AI 上線。
Google DeepMind 發表全新的 Gemini 2.5 Computer Use 專用模型,目前已透過 API 提供預覽。該模型基於 Gemini 2.5 Pro 的強大能力進行微調,旨在賦能 AI 代理(Agents)直接與作業系統及應用程式的用戶介面(UI)進行互動。這項技術將加速自動化工作流程的開發,讓 AI 能夠像人類一樣執行點擊、輸入和導覽等電腦操作。
IBM 的最新一代開源 AI 模型 Granite 4.0 正式登陸 Replicate 平台。開發者現在無需自行維護基礎設施,即可透過 Replicate 的雲端 API 快速調用 Granite 4.0 模型。這款模型主打企業級應用,在程式碼生成、文本理解與安全合規上皆有出色表現,為開發者在尋求商用與開源模型時,提供更具性價比的新選擇。
Model Context Protocol (MCP) 是一個開放標準,旨在解決 AI 應用程式與各種資料源、工具之間連接破碎化的問題。本文以問答(FAQ)形式,深入淺出地解釋 MCP 的核心架構(Client-Host-Server)、運作原理,以及開發者如何利用 Vercel 和 AI SDK 快速構建與部署 MCP 伺服器,實現更強大的 AI Agent 應用。
xAI 宣布開放旗下旗艦模型 Grok 3 以及全新輕量級模型 Grok 3-mini 的 API 服務。Grok 3-mini 的輸出定價極具市場競爭力,每百萬 token 僅需 0.5 美元。官方聲稱這款輕量模型性能可媲美體積大得多的前沿模型,並能展示完整的推理思考過程(reasoning traces),為開發者在構建 AI 應用時提供高性價比的推理新選擇。
Sam Altman 宣傳了 ChatGPT 的「記憶(Memory)」功能更新,同時市場傳出 o3、o4-mini 即將推出,以及 GPT-4o 將升級為 GPT-4.1 的洩露消息。 xAI 正式推出 Grok 3 與 Grok 3 mini 的 API,Epoch AI 曾短暫證實其具備 o1 等級的推理能力。 社群方面,Qwen3 宣布延期推出,而 AI Engineer World's Fair 2025 也正展開熱烈徵稿。
Hugging Face 宣布新增三家無伺服器(Serverless)推論合作夥伴:Hyperbolic、Nebius AI Studio 與 Novita AI。開發者現在能直接在 Hugging Face 生態系中,以更具彈性、低延遲且具成本效益的方式呼叫各類主流開源模型。這項更新不僅擴展了 Hugging Face 的推論 API 選擇,也為去中心化運算與高效能 GPU 雲端服務帶來更多應用場景。
Hugging Face 宣佈與高效能推論平台 Fireworks.ai 展開合作,將其整合至 Hugging Face Hub。開發者現在可以直接在 Hub 上利用 Fireworks.ai 的超低延遲推論引擎,運行 Llama 3、Qwen 等熱門開源模型。這項合作不僅簡化了 API 調用流程,也為尋求高性價比、企業級推論服務的開發者提供了全新選擇。
Hugging Face 宣佈在 Hub 上整合「Inference Providers」功能。開發者現在可以直接在模型頁面或透過 SDK,自由選擇 Groq、Together AI、Fireworks AI 等第三方推理服務商來運行開源模型。這項更新簡化了 API 調用流程,讓用戶能根據速度、成本與延遲,彈性切換最適合的後端算力,無需自行維護基礎設施。
Replicate 發布第 8 期技術情報。本次更新重點包括:全面支援 Meta 最新發布的頂級開源模型 Llama 3.1(包含 405B 旗艦模型);推出全新的安全分類器(如 Llama Guard 3),協助開發者過濾有害內容;以及正式開放「模型搜尋 API」,讓開發者能透過程式碼輕鬆檢索與篩選 Replicate 上的數萬個 AI 模型。
Meta 推出最強開源模型 Llama 3.1 405B,Replicate 隨即宣布全面支援其 API 運行。開發者無需自行準備昂貴的 GPU 基礎設施,即可透過 Replicate 的雲端平台,以極低的延遲與簡單的一行程式碼整合該模型。此服務支援 128k 脈絡長度,並提供結構化輸出等功能,大幅降低了企業與開發者應用頂級開源 AI 的門檻。
Snowflake 推出全新開源企業級大語言模型 Arctic,採用 MoE(混合專家)架構。Replicate 迅速跟進,提供託管 API 服務。開發者現在無需自行配置昂貴的 GPU 硬體,只需透過 Replicate 的 API 或 SDK,即可用極低的成本與簡單的程式碼,在雲端部署並運行這款強大的開源模型。
AI 模型託管平台 Replicate 宣布完成 4,000 萬美元的 B 輪融資,由知名創投 a16z 領投。這筆資金將用於擴展其雲端基礎設施,幫助更多企業與開發者透過簡單的 API 運行、微調及部署開源 AI 模型。此融資反映出企業級市場對於開源 AI(如 Llama、Stable Diffusion)的需求正迎來爆發性成長。
Yi 系列模型是由「零一萬物 (01.AI)」從頭訓練的大型語言模型,在多項基準測試中表現優異。Replicate 平台已託管 Yi 模型,開發者無需自行配置與維護昂貴的 GPU 基礎設施,即可透過 API 進行調用。本文介紹如何使用 Replicate 的 Python SDK,僅需一行程式碼便能輕鬆在雲端運行 Yi-34B-Chat 等模型,並支援串流輸出。
Hugging Face 宣布為每月 9 美元的 PRO 訂閱用戶升級 Serverless 推理 API 服務。PRO 用戶將享有更高的速率限制、更低的延遲,並能直接調用 Llama 2、Falcon 與 StarCoder 等熱門大型開源模型。這項升級讓開發者在部署專屬端點前,能以極低成本進行高效的原型開發與測試。
AI 託管平台 Replicate 宣布重大計費調整:所有公開模型(如 Llama、Stable Diffusion 等)的 API 呼叫價格直接減半(降價 50%)。與此同時,為了平衡伺服器資源成本,未來將開始對新用戶的私有模型(Private Models)在設定(冷啟動)與閒置(Idle)時間進行計費。這項調整旨在降低開源模型使用門檻,同時優化專屬資源的利用率。
Replicate 宣布支援 Meta 的開源大語言模型 Llama 2。開發者現在無需自行管理繁雜的 GPU 基礎設施,只需透過 Replicate 提供的 API,用一行程式碼就能在雲端快速呼叫並運行 Llama 2。這大幅降低了開源模型的使用門檻,讓開發者能更輕鬆地將其整合至應用中。
Meta 推出新一代開源大語言模型 Llama 2(包含 7B、13B、70B 參數版本)後,在 AI 社群引發連鎖反應。Replicate 在第一時間託管了這些模型並提供 API 服務。本文彙整了發布後 24 小時內,包含雲端部署、API 呼叫及社群生態的最新進展,展現開源 AI 領域的驚人迭代速度。
本文為 Hugging Face 官方發布的推理(Inference)解決方案指南,系統性介紹了四大核心方案:免費且即開即用的 Serverless Inference API、適合生產環境且安全可控的 Inference Endpoints、用於展示與應用的 Spaces,以及與 AWS/Azure 合作的雲端整合方案。旨在幫助開發者根據預算、延遲與隱私需求,選擇最適合的開源模型部署路徑。
Hugging Face Inference Endpoints 是一項完全託管的服務,旨在簡化機器學習模型的部署流程。用戶只需點擊幾下,即可將 Hugging Face Hub 上的任何模型部署到 AWS 或 Azure 等雲端基礎設施。該服務支援 GPU/CPU 彈性縮放、自訂容器與私有連線(VPC),大幅降低了開發者與企業維護生產級推論 API 的門檻與成本。
Replicate 介紹了如何透過其 API 運行文字生成圖片模型。讀者將學習到如何使用 Python 客戶端,只需幾行程式碼即可呼叫雲端託管的 AI 模型,並輸入提示詞(Prompt)來生成影像。這為開發者提供了一個無需本地高階 GPU 即可快速整合圖像生成功能的途徑。