Showing:forecastingGeneralClear ×
Hugging Face 發表全新基準測試「FutureBench」,旨在評估 AI Agent 在預測未來事件(如地緣政治、金融市場及科技趨勢)上的表現。該測試挑戰了 Agent 的資訊檢索、機率推理與時間推理能力,有效避免了傳統基準測試中常見的資料洩漏問題。評估結果顯示,目前的 AI Agent 在面對未知的未來事件時,預測準確度與人類專家仍有顯著差距。