IBM 研究中心與柏克萊加州大學(UC Berkeley)合作發表了 IT-Bench 基準測試與 MAST 診斷框架。IT-Bench 模擬了真實的企業 IT 運維環境,而 MAST 則專門用來剖析 AI Agent 在執行多步驟任務時失敗的深層原因。研究指出,企業級 Agent 的失敗往往源於工具調用錯誤、狀態追蹤失效及錯誤累積,而非單純的 LLM 能力不足,這為未來 AIOps 的優化提供了明確方向。
Vercel 宣布「Agent Investigations」正式進入公開測試(Public Beta)。這項新功能旨在利用 AI 代理(AI Agents)技術,自動化分析應用程式的錯誤日誌、效能瓶頸與部署歷史。開發者無需手動比對大量數據,AI 即可自動追蹤問題根源並提供修復建議,大幅縮短故障排除時間(MTTR)。