Hugging Face has published a comprehensive glossary of AI agent terminology to resolve industry-wide confusion. The guide focuses on defining critical concepts such as "scaffold" (the code wrapping the LLM) and "harness" (the evaluation and execution environment). This standardization helps developers and researchers communicate more precisely when building and benchmarking agentic systems.
Vercel 在最新的 Agent 評估中發現,使用 `AGENTS.md` 這種基於 Markdown 的宣告式文件來定義 AI Agent 的角色與指令,其成效顯著優於傳統為 Agent 綁定特定「技能(Skills/Tools)」的作法。這項發現將簡化開發者構建多 Agent 系統的流程,並提升 LLM 在複雜任務中的執行準確度與對齊表現,代表著 Agent 開發範式正朝向「文件驅動」轉移。
Vercel 提出「評估驅動開發(EDD)」概念,解決 AI 輸出不確定性帶來的測試難題。 EDD 類似於軟體工程的測試驅動開發(TDD),強調在調整提示詞或模型前先建立評估數據集。 透過自動化評估(如 LLM-as-a-judge),開發者能更具信心且快速地優化 AI 產品,避免改動導致效能倒退。