本期 AINews 聚焦於三家在 AI 開發者社群中聲譽極高的基礎設施新星:Exa(AI 專用搜尋引擎)、Modal(無伺服器 GPU 計算平台)與 TurboPuffer(高性價比無伺服器向量資料庫)。隨著新一輪融資,這三家公司正式邁入獨角獸或準獨角獸行列,展示了 AI 時代下,開發者對於高效能、低延遲且免維護的底層工具之強烈需求。這三家工具正重新定義現代 AI 應用的開發堆疊。
本文介紹 Superset 如何在 Vercel 平台上構建專為 AI Agent 設計的整合開發環境 (IDE)。Superset 利用 Vercel AI SDK 簡化多模型對接,並透過 Next.js App Router 與 Serverless Functions 處理複雜的代理人工作流與工具調用。透過 Vercel 的全球邊緣網路,他們成功解決了 Agent 運作時的即時狀態同步與高延遲問題,為開發者提供流暢的協作體驗。
Hugging Face 宣布將知名低成本、高效能的推理平台 DeepInfra 整合至其「推理服務商(Inference Providers)」計畫中。現在,開發者在 Hugging Face Hub 上瀏覽開源模型(如 Llama 3、Mistral 等)時,可以直接選擇 DeepInfra 作為後端託管 API,無需自行架設 GPU 基礎設施。這項合作為開發者提供了更多元、更具性價比的無伺服器(Serverless)推理選擇,進一步簡化了 AI 應用的部署流程。
本文介紹 Notion 全新推出的 Notion Workers 如何解決安全執行第三方程式碼的挑戰。透過採用 Vercel Sandbox 技術,Notion 能夠在極低延遲下,將用戶編寫的程式碼隔離在安全的微型虛擬化環境(Micro-VM)中執行。這項合作不僅確保了多租戶環境的安全隔離,也實現了高彈性的水平擴展能力,為 SaaS 平台安全開放客製化功能樹立了新標竿。
Vercel 宣布將 Python Vercel Functions 的打包大小(Bundle Size)限制提高至 500MB。這項更新解決了過去 Python 開發者在部署大型依賴庫(如 NumPy、Pandas 或輕量 AI 模型)時常遇到的容量限制痛點。現在開發者可以更輕鬆地在 Vercel 上構建與部署功能豐富的 Python 後端與 AI 應用,無需再為套件體積過大而煩惱。
Vercel 探討 AI Agent 從開發到生產環境的關鍵痛點。雖然現今開發 Agent 難度降低,但運行時面臨 Serverless 超時、複雜狀態管理、即時串流(Streaming)以及工具調用監控等挑戰。Vercel 強調,唯有透過完善的平台基礎設施(如 Vercel AI SDK 與其託管服務),才能真正釋放 Agent 的商業價值。
Vercel 官方發布「Agent Skills」常見問答指南,解析如何定義與部署 AI 代理的「技能」(即工具呼叫)。透過 Vercel AI SDK,開發者能使用 Zod 定義 Schema,並在 Serverless 或 Edge 環境安全執行。本文涵蓋技能的運作原理、安全性設計以及如何結合 Generative UI 提升使用者體驗。
Vercel 宣布正式投資 Python 生態系,除了成為 Python 軟體基金會(PSF)的贊助商外,也全面升級了平台上的 Python 支援。本次更新包含支援 Python 3.12、優化 Serverless Functions 的冷啟動速度,並提供 Next.js 與 FastAPI 等 Python 框架更無縫的 monorepo 整合,旨在降低開發者構建 AI 應用的門檻。
Hugging Face 宣布與歐洲最大雲端服務商 OVHcloud 合作,將其納入「推理供應商(Inference Providers)」生態系。開發者現在可以直接在 Hugging Face Hub 上,選擇由 OVHcloud 託管的基礎設施來運行開源 AI 模型。此合作為重視 GDPR 合規與數據主權的企業,提供了安全、高效且具成本效益的無伺服器(Serverless)推理新選擇。
知名開源 AI 模型託管平台 Replicate 宣布加入網路基礎設施與安全巨頭 Cloudflare。此一併購案將結合 Replicate 極致簡便的 AI 模型部署體驗,與 Cloudflare 龐大的全球邊緣網路及 Workers AI 基礎設施。未來開發者將能以更低的延遲、更低的成本,在全球邊緣節點無縫運行與擴展各類開源 AI 模型(如 Llama、Stable Diffusion 等),預期將對 AI 應用開發生態帶來深遠影響。
Vercel 發表專文,整理其團隊在使用 Vercel AI SDK 構建 AI Agent 的核心心得。文章指出,從 Chat 轉向 Agent 需克服 Serverless 執行時間限制、複雜的狀態管理,以及如何向用戶即時串流 Agent 的「思考與工具執行過程」。此外,建立完善的評估(Evaluation)機制與工具調用的容錯設計,是確保 Agent 穩定運作的關鍵。
IBM 的最新一代開源 AI 模型 Granite 4.0 正式登陸 Replicate 平台。開發者現在無需自行維護基礎設施,即可透過 Replicate 的雲端 API 快速調用 Granite 4.0 模型。這款模型主打企業級應用,在程式碼生成、文本理解與安全合規上皆有出色表現,為開發者在尋求商用與開源模型時,提供更具性價比的新選擇。
Hugging Face 宣布與 Featherless AI 合作,將其納入官方推理供應商(Inference Providers)名單。Featherless 專注於無冷啟動的無伺服器(Serverless)推理技術,能高效運行數千種開源與微調模型。開發者現在可以直接在 Hugging Face Hub 上,透過 Featherless 的高效能架構一鍵部署與調用各種利基型模型,大幅降低延遲與維運成本。
Replicate 宣布與 Hugging Face 展開深度合作,將其高效的無伺服器推理服務引進 Hugging Face 平台。這項整合讓開發者能直接在 Hugging Face 上運行超過 30,000 個 LoRA 微調模型,免去繁瑣的 GPU 配置。結合了 Hugging Face 的豐富生態與 Replicate 的彈性算力,大幅簡化了 AI 模型的部署與測試流程。
Vercel 宣布支援 Model Context Protocol (MCP) 伺服器部署。開發者現在可以將 MCP 伺服器作為 Serverless Functions 部署在 Vercel 上,並透過 SSE (Server-Sent Events) 與 Claude Desktop 或 Cursor 等 AI 工具連接。這簡化了 AI Agent 連結私有數據與 API 的流程,並享有 Vercel 的即時擴展與安全管理優勢。
Vercel 宣布其新一代「Fluid Compute」架構現已成為所有新建立專案的預設選項。Fluid Compute 旨在解決傳統 Serverless 的冷啟動延遲與資源配置僵化問題,透過動態資源調度提升執行效率。這項更新讓開發者無需手動設定,即可自動享有更流暢、高效且具成本效益的雲端運算與串流體驗。
Hugging Face 宣布新增三家無伺服器(Serverless)推論合作夥伴:Hyperbolic、Nebius AI Studio 與 Novita AI。開發者現在能直接在 Hugging Face 生態系中,以更具彈性、低延遲且具成本效益的方式呼叫各類主流開源模型。這項更新不僅擴展了 Hugging Face 的推論 API 選擇,也為去中心化運算與高效能 GPU 雲端服務帶來更多應用場景。
Hugging Face 宣佈與高效能推論平台 Fireworks.ai 展開合作,將其整合至 Hugging Face Hub。開發者現在可以直接在 Hub 上利用 Fireworks.ai 的超低延遲推論引擎,運行 Llama 3、Qwen 等熱門開源模型。這項合作不僅簡化了 API 調用流程,也為尋求高性價比、企業級推論服務的開發者提供了全新選擇。
Hugging Face 宣佈在 Hub 上整合「Inference Providers」功能。開發者現在可以直接在模型頁面或透過 SDK,自由選擇 Groq、Together AI、Fireworks AI 等第三方推理服務商來運行開源模型。這項更新簡化了 API 調用流程,讓用戶能根據速度、成本與延遲,彈性切換最適合的後端算力,無需自行維護基礎設施。
Hugging Face 宣布與 NVIDIA 深度整合,在 Hugging Face Hub 上推出全新「無伺服器推論 (Serverless Inference)」服務。該服務由 NVIDIA NIM 微服務與 DGX Cloud 驅動,開發者無需管理複雜的 GPU 基礎設施,即可一鍵部署 Llama 3、Mistral 等熱門開源模型,並享有 TensorRT 優化帶來的極致效能與低延遲。
Hugging Face 宣布與 Cloudflare 深度整合,推出無伺服器 GPU 推理服務。開發者現在可以直接在 Hugging Face Hub 上,一鍵將熱門的開源模型(如 Llama 和 Mistral)部署至 Cloudflare Workers AI。這項合作免除了管理 GPU 基礎設施的繁瑣工作,並利用 Cloudflare 的全球邊緣網路提供低延遲、高彈性的 AI 推理能力。
AI 模型託管平台 Replicate 宣布完成 4,000 萬美元的 B 輪融資,由知名創投 a16z 領投。這筆資金將用於擴展其雲端基礎設施,幫助更多企業與開發者透過簡單的 API 運行、微調及部署開源 AI 模型。此融資反映出企業級市場對於開源 AI(如 Llama、Stable Diffusion)的需求正迎來爆發性成長。
Yi 系列模型是由「零一萬物 (01.AI)」從頭訓練的大型語言模型,在多項基準測試中表現優異。Replicate 平台已託管 Yi 模型,開發者無需自行配置與維護昂貴的 GPU 基礎設施,即可透過 API 進行調用。本文介紹如何使用 Replicate 的 Python SDK,僅需一行程式碼便能輕鬆在雲端運行 Yi-34B-Chat 等模型,並支援串流輸出。
Hugging Face 發表 Gradio-Lite,這是一項基於 Pyodide (WASM) 的新技術,允許開發者直接在瀏覽器中運行 Gradio 應用,無需配置 Python 後端伺服器。這不僅能大幅降低託管成本,還能確保使用者數據完全留在本地,提升隱私安全性。雖然有初始載入時間較長與庫支援限制,但非常適合輕量級應用與靜態網頁部署。
Hugging Face 宣布為每月 9 美元的 PRO 訂閱用戶升級 Serverless 推理 API 服務。PRO 用戶將享有更高的速率限制、更低的延遲,並能直接調用 Llama 2、Falcon 與 StarCoder 等熱門大型開源模型。這項升級讓開發者在部署專屬端點前,能以極低成本進行高效的原型開發與測試。
Replicate 宣布對微調模型的「冷啟動(Cold Boot)」進行重大改進。過去部署微調模型需要數分鐘來啟動新容器,現在透過共享基礎模型並動態載入輕量化的 LoRA 權重,冷啟動時間已縮短至一秒以內。這大幅降低了開發者在使用客製化模型時的延遲與成本。
AI 託管平台 Replicate 宣布重大計費調整:所有公開模型(如 Llama、Stable Diffusion 等)的 API 呼叫價格直接減半(降價 50%)。與此同時,為了平衡伺服器資源成本,未來將開始對新用戶的私有模型(Private Models)在設定(冷啟動)與閒置(Idle)時間進行計費。這項調整旨在降低開源模型使用門檻,同時優化專屬資源的利用率。