LLM 推論包含計算密集的 Prefill(處理輸入)與記憶體頻寬受限的 Decode(逐字生成)階段。當面對多個併發請求時,傳統靜態批處理會導致資源浪費。本文介紹了連續批處理(Continuous Batching)、區塊預填充(Chunked Prefill)以及 Prefill-Decode 分離等技術,幫助開發者在高併發場景下最大化吞吐量並降低延遲。
影片生成競技場(Video Arena)排名前兩名的 SOTA 模型 Google Veo 2 與 Kling 2 正式向開發者全面開放(GA)。Google Veo 2 已整合至 Gemini API,主打每秒生成僅需 0.35 美元的超低價格;而來自中國的 Kling 2 則以約 10 秒 2 美元的價格推出,但設有每月 700 美元(需簽 3 個月)的最低消費門檻。兩大模型的開放象徵著高品質 AI 影片生成正式進入開發者應用的實用化階段。
Hugging Face 官方部落格解析了 Gradio 脫穎而出的 17 個關鍵原因。Gradio 不僅能用 Python 快速構建機器學習介面,更具備自動生成 API、內建 ChatInterface、支援 WebRTC 即時串流、以及透過 Gradio-lite 在瀏覽器端免伺服器運行的能力。這使其超越了傳統的 UI 框架,成為 AI 開發者將模型轉化為實用產品的強大橋樑。
Hugging Face 介紹了由普林斯頓大學等機構提出的 HELMET 基準測試,旨在解決現有長文本評估(如 Needle In A Haystack)過於單一的問題。HELMET 包含 7 大類、11 個真實應用數據集,涵蓋長文本問答、摘要、資訊檢索與程式碼生成等。測試結果顯示,許多宣稱擁有超長上下文的模型,在實際複雜任務中的有效性能會隨著長度增加而顯著衰退。
Hugging Face 宣布與 Cohere 合作,將其納入「推論提供商(Inference Providers)」生態系。現在開發者可以直接在 Hugging Face Hub 上,透過 Cohere 的託管服務免伺服器(Serverless)調用 Command R 和 Command R+ 等熱門模型。這項整合簡化了開發流程,讓用戶無需自行部署即可在 HF 生態系中無縫測試與整合 Cohere 的強大語言模型。
知名 AI 圖像技術 Easel AI 正式將其進階換臉(Face Swap)與 AI 頭像(Avatar)生成模型上架至 Replicate 平台。開發者現在可以直接透過 Replicate 的雲端 API 調用這些高品質模型,無需自行維護 GPU 基礎設施,大幅降低了將人臉編輯技術整合至應用程式的門檻。
西班牙甲級足球聯賽(LALIGA)為打擊盜版,透過法院命令要求 ISP 封鎖特定 IP,卻波及 Vercel 等 CDN 業者,導致大量合法網站無法在西班牙存取。Vercel 官方發布最新說明,交代與西班牙當局、電信商溝通的進度,並提出技術緩解方案,以保障合法開發者的權益。
Vercel 深入解析一個 HTTP 請求在其平台上的生命週期,重點介紹「應用程式感知路由(Application-aware routing)」技術。該技術讓邊緣路由層能理解應用程式的框架特性(如 Next.js 的 ISR 與 Server Actions),並提供部署傾斜保護(Skew Protection),確保新舊版本交替時用戶體驗不中斷。這項架構升級大幅提升了現代 Web 應用的效能與穩定性。
OpenAI 正式發表全新主力模型 GPT 4.1,定位為兼顧效能與成本的「工作馬(Workhorse)」。本次更新同步推出 MRCR 與 GraphWalks 兩項全新基準測試,並釋出官方 Prompt 指南與 Cookbook。此外,社群(如 Reddit 與 Discord)也熱烈討論 GLM-4 強化學習模型與 DeepSeek 的開源貢獻。
Vercel 發布技術案例,分享如何將名為 Grep 的專案從 Create React App (CRA) 遷移到 Next.js。隨著 CRA 走入歷史,許多團隊面臨框架轉型的抉擇。本文詳細解析了遷移過程中的架構調整、路由重構、環境變數處理,以及遷移後在載入速度與開發體驗(DX)上獲得的顯著提升。
Vercel 針對 SvelteKit 應用程式升級了其 Observability(可觀測性)監控功能,正式支援「路由感知(Route-aware)」。開發者現在可以直接在 Vercel 控制台中,將效能指標、伺服器延遲與錯誤日誌,精確對應到 SvelteKit 的具體動態路由(如 `/[category]/[id]`),而不再只是看到混亂的原始 URL。這項更新將大幅提升 SvelteKit 開發者在除錯與效能優化上的效率。
Hugging Face 正式收購法國機器人公司 Pollen Robotics,將其硬體技術與 Hugging Face 的 LeRobot 開源機器人平台深度整合。此舉標誌著 Hugging Face 正式進軍實體機器人硬體領域,未來將致力於降低機器人開發門檻,並直接向開發者與研究人員銷售開源機器人硬體,加速具身智能(Embodied AI)的普及。
Hugging Face 與 AI 安全公司 Protect AI 合作滿六個月,宣布已完成平台上 400 萬個開源模型的安全掃描。此項合作旨在解決開源模型(特別是含有 pickle 反序列化風險的舊格式)中潛在的惡意代碼與安全漏洞。透過自動化安全掃描與漏洞標記,雙方共同為全球開發者建構更安全、更值得信賴的 AI 供應鏈生態。
本期 AINews 指出這幾天 AI 領域相對平靜,並無重大新聞發布。編輯特別推薦讀者收聽 Latent.Space 最新釋出的節目,內容聚焦於 SF Compute 以及 GPU 新興雲端服務(Neocloud)的發展與討論。這對於關注 AI 算力基礎設施、GPU 租賃市場與雲端運算趨勢的開發者與創業者來說,是相當值得參考的產業情報。
巴塞隆納超級電腦中心(BSC-LT)正式發布 Visual Salamandra 7B 多模態模型。該模型以其自主研發的 Salamandra 7B 語言模型為基礎,融合了先進的視覺編碼器,旨在提升圖像理解、視覺問答及 OCR 能力。特別的是,它承襲了 Salamandra 家族在西班牙語、加泰隆尼亞語等多語言環境下的優異表現,為開源多模態社群注入新選擇。
Sam Altman 宣傳了 ChatGPT 的「記憶(Memory)」功能更新,同時市場傳出 o3、o4-mini 即將推出,以及 GPT-4o 將升級為 GPT-4.1 的洩露消息。 xAI 正式推出 Grok 3 與 Grok 3 mini 的 API,Epoch AI 曾短暫證實其具備 o1 等級的推理能力。 社群方面,Qwen3 宣布延期推出,而 AI Engineer World's Fair 2025 也正展開熱烈徵稿。
Vercel 官方宣佈,自 2025 年 9 月 1 日起將不再支援舊版建置映像檔(Legacy Build Image)。這項變更將影響仍在使用舊版環境進行專案建置的開發者。為了避免部署中斷,建議受影響的用戶儘早將專案的建置設定與 Node.js 版本升級至最新支援的版本。
Google 在 Cloud Next 大會上宣布雙重重磅消息:全面支援 Anthropic 的 MCP 協定,並推出全新的 Agent2Agent (A2A) 協定。A2A 旨在與 MCP 互補,解決跨遠端 Agent 溝通的痛點。該規範包含 Agent Card、Task 機制、企業級認證與推播支援,並同步開源了草案規範與 Agent 開發套件(ADK)。
Together 與 Agentica Project(曾推出 DeepScaleR)聯合發表了全新 14B 程式碼推理模型「DeepCoder」。該模型完全開源,並採用 GPRO+(Group Relative Policy Optimization+)強化學習技術。在多項程式碼基準測試中,DeepCoder 展現出媲美 OpenAI o3-mini 的強大實力,是開源 AI 推理領域的重大突破。
Vercel 宣布推出全新的 Chatbot 模板,旨在簡化開發者建構 AI 對話介面的流程。該模板基於 Next.js 與 Vercel AI SDK 開發,支援即時串流響應、工具調用(Tool Calling)以及多種主流 LLM 供應商。開發者可以一鍵部署至 Vercel,並輕鬆自訂 UI 與後端邏輯,是打造現代 AI 助理與對話式應用的理想起步工具。
Vercel 宣布 xAI 的最新旗艦模型 Grok 3 已正式登陸 Vercel Marketplace。開發者現在可以直接在 Vercel 平台中訂閱、配置並將 Grok 3 整合至其 Web 應用程式中,無需繁瑣的跨平台設定。這項更新進一步豐富了 Vercel 的 AI 生態系,為開發者提供更多高效能的模型選擇。
Hugging Face 宣布與 Cloudflare 達成合作,將其開源即時通訊庫 FastRTC 與 Cloudflare 的 WebRTC 基礎設施(如 Cloudflare Calls)進行深度整合。此合作旨在解決即時語音和視訊 AI 應用在部署時面臨的高延遲與複雜網路設定難題。開發者現在可以更輕鬆地在全球邊緣網路上建構並擴展低延遲的互動式 AI 體驗。
Vercel 宣布 Sentry、Checkly 和 Dash0 三大監控與測試工具正式上架 Vercel Marketplace。開發者現在可以直接在 Vercel 平台上一鍵啟用並配置這些服務,簡化專案的錯誤追蹤、主動式 API/E2E 測試以及基於 OpenTelemetry 的觀測流程。此舉不僅簡化了開發工作流,也提供了統一計費的便利性,進一步完善了 Vercel 的生態系。
Vercel 宣布其「偏斜保護(Skew Protection)」功能現在能自動緩解 Google 和 Bing 搜尋爬蟲的延遲問題。當網站進行新部署時,爬蟲常因讀取到舊 HTML 但請求新 JS 資源而遭遇 404 錯誤,進而降低爬取頻率。此更新會自動識別爬蟲並導流至正確的部署版本,確保 SEO 爬取順暢無阻。
Vercel 推出全新或擴展的可觀測性(Observability)功能,旨在簡化開發者在無伺服器(Serverless)環境下的監控與除錯流程。本次更新強化了內建的監控儀表板、日誌系統,並深化與 OpenTelemetry 的整合,讓開發者能更輕鬆地追蹤應用程式效能、錯誤率與延遲,並無縫對接第三方觀測工具。
Hugging Face 宣布升級其阿拉伯語大語言模型(LLM)評估體系。本次更新重點引入了「阿拉伯語指令遵循(Arabic IFEval)」評估,用以測試模型執行特定格式與約束指令的能力;同時更新了阿拉伯語生成基準「AraGen」。這些舉措旨在解決非英語系評估資源不足的問題,為全球開源社群提供更精準的阿拉伯語模型評估工具。
Vercel 推出全新整合功能,允許開發者在 Vercel 部署時自動觸發 GitHub Actions。此功能會傳遞「豐富的部署數據」(如部署 URL、Commit 資訊、環境類型等),讓開發者能輕鬆進行部署後的端對端(E2E)測試、效能分析或自動化通知,大幅提升 CI/CD 工作流的靈活性與自動化程度。
Vercel 推出名為「Protectd」的全新常駐型阻斷服務(DoS)防禦系統。該系統部署於 Vercel 的全球邊緣網路,能自動且即時地識別並過濾惡意流量(如 L7 應用層攻擊),無需用戶手動干預。此升級旨在保護開發者的 Serverless 應用免受惡意攻擊,同時避免因攻擊流量導致的異常帳單費用,並確保合法用戶的連線延遲不受影響。
Vercel 宣布 Meta 的最新一代開源大語言模型 Llama 4 已正式登陸 Vercel Marketplace。這項更新讓全端與前端開發者能夠更輕鬆地在 Next.js 等專案中,透過 Vercel 生態系統快速接入、配置並部署 Llama 4。藉由 Marketplace 的整合,開發者無需繁瑣的 API 設定即可開始使用最新模型。
Meta 正式於 Hugging Face 平台上架了備受矚目的 Llama 4 家族首批模型:Maverick 與 Scout。這標誌著開源大語言模型正式邁入 Llama 4 時代。雖然詳細技術細節仍待官方完整白皮書披露,但從命名來看,Scout 預期為輕量、高效率的「偵察型」模型,適合邊緣運算與 Agent 任務;而 Maverick 則可能是主打強大推理與複雜任務處理的「王牌」模型。這兩款模型的釋出將為開源社群注入全新動力。