Hugging Face BlogJul 17, 2025, 12:00 AM重要 75
Back to The Future: Evaluating AI Agents on Predicting Future Events
Hugging Face 推出 FutureBench 基準測試,專門評估 AI Agent 預測未來政治、經濟與科技事件的能力。
Hugging Face 發表全新基準測試「FutureBench」,旨在評估 AI Agent 在預測未來事件(如地緣政治、金融市場及科技趨勢)上的表現。該測試挑戰了 Agent 的資訊檢索、機率推理與時間推理能力,有效避免了傳統基準測試中常見的資料洩漏問題。評估結果顯示,目前的 AI Agent 在面對未知的未來事件時,預測準確度與人類專家仍有顯著差距。
想看英文原文 / 完整內容?
前往 Hugging Face Blog 原文 →摘要由 AI 整理,以原文為準。