IBM and UC Berkeley Diagnose Why Enterprise Agents Fail Using IT-Bench and MAST★ 80
Hugging Face Blog·104d ago·Release
IBM 研究中心與柏克萊加州大學(UC Berkeley)合作發表了 IT-Bench 基準測試與 MAST 診斷框架。IT-Bench 模擬了真實的企業 IT 運維環境,而 MAST 則專門用來剖析 AI Agent 在執行多步驟任務時失敗的深層原因。研究指出,企業級 Agent 的失敗往往源於工具調用錯誤、狀態追蹤失效及錯誤累積,而非單純的 LLM 能力不足,這為未來 AIOps 的優化提供了明確方向。