本期 Import AI 涵蓋三大前沿議題:首先探討如何量化 AI 的「創意」與 LLM 社會模擬(LLM societies)的最新進展;其次聚焦華為利用 AI 技術自動生成與優化作業系統核心(Kernel)的實踐,展示 AI 在系統級程式設計的潛力;最後介紹 ChipBench,這是一個評估 AI 在晶片設計與硬體描述語言(HDL)生成能力的全新基準測試。
本文探討在 2026 年面對 Opus 4.6 與 Codex 5.3 等頂尖模型時,傳統靜態基準測試(如 MMLU)已完全失效。AI 評估正式進入「後基準時代」,重點轉向評估模型在複雜、多步驟的代理人任務(Agentic tasks)中的實際表現。未來,評估將更依賴動態環境、人類反饋與客製化的工作流模擬,而非單一的分數指標。
Vercel 探討 AI Agent 從開發到生產環境的關鍵痛點。雖然現今開發 Agent 難度降低,但運行時面臨 Serverless 超時、複雜狀態管理、即時串流(Streaming)以及工具調用監控等挑戰。Vercel 強調,唯有透過完善的平台基礎設施(如 Vercel AI SDK 與其託管服務),才能真正釋放 Agent 的商業價值。
ServiceNow AI 發表全新開源工具 SyGra Studio,旨在簡化「符號圖(Symbolic Graphs)」的建立與視覺化。該工具結合了神經網路(LLM)與符號邏輯(Symbolic AI),讓開發者能以直觀的拖拉介面設計複雜的 Agent 工作流,並提供即時偵錯與路徑追蹤功能,大幅提升企業級 AI 代理的可靠性與可解釋性。
Vercel 宣布其 AI Gateway 正式支援 Parallel 的 Web Search 及相關工具。這項整合讓開發者在使用 Vercel AI Gateway 時,能直接調用 Parallel 的高效網頁搜尋 API,為 LLM 應用與 AI Agent 提供即時的網路資訊檢索。透過統一的 Gateway 管理,開發者能更輕鬆地監控、優化並安全地部署具備聯網能力的 AI 服務。
Vercel 宣布 Parallel 正式加入其 Agent Marketplace。 這項整合讓開發者能夠直接在 Vercel 生態系中,快速部署與管理 Parallel 的 AI Agent 服務。 此舉進一步擴大了 Vercel 在 AI 應用開發領域的佈局,簡化了 AI 代理與前端及無伺服器架構的整合流程。
法國 AI 新創 H Company 發表全新 Holo2-235B 模型,在 UI 元素定位(UI Localization)任務上取得領先。該模型擁有 2350 億參數,旨在精準識別與定位網頁及應用程式中的互動元件。這項突破將大幅提升 GUI 運作型 Agent(如自動操作電腦的 AI)的執行效率與準確度,是自動化工作流與 AI 代理領域的重要進展。
Vercel 發布 Workflow 4.1 Beta,核心導入「事件溯源(Event-sourced)」架構。此更新透過重播歷史事件來重建工作流狀態,解決了無伺服器環境中斷或冷啟動時的狀態遺失問題。這為需要多步驟、長執行時間的 AI Agent 或自動化任務開發者,提供了更高的容錯率與更清晰的執行軌跡。
Vercel 宣布在 Vercel Toolbar 中新增「複製視覺上下文至 Agent」功能。開發者在預覽網頁時,可直接擷取當前視覺狀態與結構並貼給 AI 助理(如 v0)。這簡化了前端除錯與 UI 迭代流程,讓 AI 能更精準地理解並修正網頁視覺問題。
Vercel 提出利用 HTTP 內容協商(Content Negotiation)技術來優化 AI Agent 的爬取體驗。當 AI 代理(如 LLM 爬蟲)請求網頁時,伺服器可依據 `Accept` 標頭自動回傳乾淨的 Markdown 或 JSON,而非繁重的 HTML。這不僅能大幅節省 Token 消耗,還能提升 AI 理解網頁內容的精準度,是未來 Web 開發與 AIO(AI 優化)的新趨勢。
知名 AI 觀察家 Jack Clark 在本期電子報中探討了「Agent 生態系(Agent Ecologies)」的崛起與網際網路的轉型。隨著大量自主 Agent 投入網路,傳統由人類主導的網路正轉變為 Agent 互動的迷霧。此外,本期也收錄了一篇科幻短篇,描述 Agent 之間如何互相影響、甚至惡意串通與腐化的未來場景。
Vercel 宣布 AssistLoop 正式加入其 Agents Marketplace。AssistLoop 專注於提供 AI Agent 的「人機協同(Human-in-the-loop)」解決方案,讓開發者能在 Agent 執行高風險或不確定任務時引入人類審查。透過此次整合,Vercel 用戶可以更快速地在專案中部署具備安全護欄與人類協作能力的 AI 應用。
Vercel 宣布 Cubic 正式加入其 Agents Marketplace。這項整合讓 Vercel 開發者能夠更輕鬆地在他們的 Web 專案中導入 Cubic 的 AI Agent 功能。透過 Vercel 平台,開發者可以快速配置、部署並與這些 Agent 進行互動,進一步加速 AI 應用的開發與落地。
Hugging Face 發表全新開源工具 Daggr,旨在解決 AI 應用(如 LLM 鏈、Agent 工作流)開發中的痛點。開發者可以用純程式碼(Programmatic)定義複雜的有向無環圖(DAG)工作流,同時透過直觀的視覺化介面(Visual Inspection)進行執行追蹤與除錯。這項工具完美結合了程式碼的靈活性與視覺化工具的易讀性。
Vercel 宣布其 AI 驅動的「Vercel Agent」調查功能已正式整合至 Slack。當系統出現部署錯誤或效能異常時,開發團隊無需切換至 Vercel 控制台,即可直接在 Slack 頻道中引導 AI Agent 進行日誌分析與問題排查。這項更新將大幅提升 DevOps 團隊的除錯效率與協作體驗。
賓州大學教授 Ethan Mollick 指出,隨著 AI 轉型為能自主規劃與執行的 Agent(代理),人類的工作將從「與 AI 協作」轉變為「管理 AI」。這意味著傳統的管理技能——如明確授權、設定目標、績效評估與跨團隊協調——將成為每個人的核心競爭力。不會管理的人將難以駕馭強大的 AI 工具。
Vercel 在最新的 Agent 評估中發現,使用 `AGENTS.md` 這種基於 Markdown 的宣告式文件來定義 AI Agent 的角色與指令,其成效顯著優於傳統為 Agent 綁定特定「技能(Skills/Tools)」的作法。這項發現將簡化開發者構建多 Agent 系統的流程,並提升 LLM 在複雜任務中的執行準確度與對齊表現,代表著 Agent 開發範式正朝向「文件驅動」轉移。
本文探討如何針對開源 GPT 模型(GPT-OSS)導入自主 Agent 強化學習(Agentic RL)訓練。LinkedIn 團隊分享了他們在訓練過程中的實務經驗與挑戰,包含如何建立有效的獎勵機制、克服訓練不穩定性,並提供了一套可供開發者與研究人員參考的實作回顧,旨在推動開源模型在複雜 Agent 任務中的表現。
Vercel 官方發布「Agent Skills」常見問答指南,解析如何定義與部署 AI 代理的「技能」(即工具呼叫)。透過 Vercel AI SDK,開發者能使用 Zod 定義 Schema,並在 Serverless 或 Edge 環境安全執行。本文涵蓋技能的運作原理、安全性設計以及如何結合 Generative UI 提升使用者體驗。
Vercel 宣布推出 Skills v1.1.1 更新,正式將此框架開源。本次更新核心在於引入「互動式探索(Interactive Discovery)」功能,讓開發者與 AI 系統能更直觀地發現與調用可用技能。此外,新版本全面優化了對 AI Agent 的支援,簡化了 Agent 在複雜工作流中動態載入與執行工具的流程。
Vercel 近期發表文章,探討在 AI Agent 時代中,「僅提供 Bash 工具」是否就能滿足所有開發需求。文章評估了讓 AI 代理直接操作終端機的潛力與極限,分析其在自動化測試、程式碼修復及部署上的表現。雖然 Bash 賦予了極高的自由度,但安全防護、錯誤處理與上下文限制仍是關鍵挑戰。
Vercel 宣布在其 AI SDK 中,開發者現在可以透過 bash-tool 讓 AI Agent 使用各種「技能(skills)」。這項更新使 Agent 能夠在安全的環境中執行 Bash 指令,進而調用複雜的腳本、CLI 工具或自動化任務。這為構建具備系統操作與自動化能力的 AI Agent 提供了更強大且彈性的基礎。
Vercel 推出全新功能,允許開發者一鍵套用 Vercel Agent 產生的程式碼建議。 此更新免去了手動複製貼上或切換編輯器的繁瑣步驟,直接在 Vercel 介面上即可完成修改。 這項改進進一步優化了 Vercel 的 AI 輔助開發體驗,讓專案部署與優化流程更加流暢。
IBM Research 在 Hugging Face 上推出了 AssetOpsBench 互動遊樂場。這是一項專門針對工業資產營運(AssetOps)設計的 AI Agent 基準測試,旨在解決現有評估工具偏重軟體工程或網頁瀏覽,而缺乏工業實際場景的問題。它評估 Agent 在面對複雜工業手冊、感測器數據及企業資產管理系統時的規劃、工具調用與推理能力。
Vercel 宣布推出「skills」,這是一個專為 AI Agent 設計的開放式技能生態系統。開發者可以透過此平台輕鬆定義、發布並重用各種 Agent 技能(如 API 呼叫、數據庫查詢等),並與 Vercel AI SDK 無縫整合。這項舉措旨在簡化 AI 代理的工具調用(Tool Calling)流程,建立一個標準化且社群驅動的 Agent 能力庫。
在本期 Import AI 中,Jack Clark 探討了 AI Agent 的實用化轉折點,分享他如何將 Agent 融入日常工作流,指出 Agent 已從「玩具」走向「實用工具」。此外,本期也介紹了一項安全研究「毒泉(Poison Fountain)」,展示了攻擊者如何透過持續注入惡意數據,污染 AI 系統的長期記憶與檢索機制,對當前日益普及的 Agent 安全性敲響警鐘。
Vercel 宣布推出「隨選 Vercel Agent 程式碼審查(On-demand Vercel Agent code reviews)」功能。開發者現在可以根據需求,在特定時刻主動觸發 Vercel 的 AI Agent 來審查程式碼,而不需要每次提交都自動執行。這項更新賦予開發團隊更高的控制權,能有效優化開發流程並節省 AI 運算資源。
Vercel 宣布其「網頁介面指南 (Web Interface Guidelines)」現已可作為 Agent 指令使用。這項更新讓開發者在使用 AI 編碼助手(如 v0、Cursor 等)時,能直接透過指令讓 AI 遵循 Vercel 推薦的網頁設計與開發最佳實踐。這不僅能提升 AI 生成程式碼的品質,還能確保介面在無障礙設計與效能上符合高標準。
Vercel 發布技術指南,介紹如何利用 Vercel AI SDK 構建能操作檔案系統與執行 Bash 指令的 AI Agent。文章重點在於如何設計安全的 Tool Calling 機制,並結合 E2B 等沙盒環境(Sandbox)來隔離執行環境,避免惡意程式碼危害主機。此技術適用於開發自動化程式碼編輯器、系統運維助手等進階 Agent 應用。
知名 AI 學者 Ethan Mollick 撰文分析 Anthropic 最新釋出的命令列工具 Claude Code。他指出,這款工具代表了 AI 從單純的「對話框」走向「自主代理人(Agent)」的重大轉變。Claude Code 不僅能寫程式,還能直接在終端機執行、測試、根據錯誤訊息自我修正並完成 Git 提交。這預示著未來所有工作流程都將被這種「給予工具並讓其自主嘗試」的 Agent 模式所顛覆。