Hugging Face has published a comprehensive glossary of AI agent terminology to resolve industry-wide confusion. The guide focuses on defining critical concepts such as "scaffold" (the code wrapping the LLM) and "harness" (the evaluation and execution environment). This standardization helps developers and researchers communicate more precisely when building and benchmarking agentic systems.
Vercel 在最新的 Agent 評估中發現,使用 `AGENTS.md` 這種基於 Markdown 的宣告式文件來定義 AI Agent 的角色與指令,其成效顯著優於傳統為 Agent 綁定特定「技能(Skills/Tools)」的作法。這項發現將簡化開發者構建多 Agent 系統的流程,並提升 LLM 在複雜任務中的執行準確度與對齊表現,代表著 Agent 開發範式正朝向「文件驅動」轉移。
AI 評估與追蹤平台 Braintrust 正式加入 Vercel Marketplace,提供一鍵整合服務。開發者現在可以直接在 Vercel 專案中啟用 Braintrust,進行 LLM 應用的提示詞管理、自動化評估(Evals)與生產環境監控。此舉進一步完善了 Vercel 的 AI 開發生態系,讓全端開發者能更快速地建構具備高品質保障的 AI 產品。
Vercel 宣布將 AI SDK 與 AI Gateway 整合至 GitHub Actions。開發者現在可以在 CI/CD 自動化流程中,直接利用 AI SDK 進行自動化測試、模型評估(Evals)或 PR 審查,並透過 AI Gateway 進行 API 呼叫的快取、監控與成本控制,有效降低 CI 期間的 LLM 呼叫成本並提升穩定性。
Vercel 提出「評估驅動開發(EDD)」概念,解決 AI 輸出不確定性帶來的測試難題。 EDD 類似於軟體工程的測試驅動開發(TDD),強調在調整提示詞或模型前先建立評估數據集。 透過自動化評估(如 LLM-as-a-judge),開發者能更具信心且快速地優化 AI 產品,避免改動導致效能倒退。