Artificial Analysis and IBM present ITBench-AA, described in the title as the first benchmark for agentic enterprise IT tasks. The headline result is that frontier models score below 50%, suggesting current systems still struggle with enterprise-grade agent workflows. The original article text is unavailable here, so task design, evaluated models, scoring methodology, and rankings cannot be confirmed.
Hugging Face 與 IBM Research 合作發表「Open Agent Leaderboard」,這是一個專為 AI 智能體(Agent)設計的全新開源排行榜。傳統的 LLM 評測難以衡量模型在實際任務中的多步驟規劃與工具調用能力,該排行榜整合了多個主流 Agent 評測集,提供客觀、標準化的評估標準,推動開源 Agent 生態系的發展。
Hugging Face 宣布為其 Open ASR(自動語音識別)排行榜引入「Benchmaxxer 驅逐劑」。此舉旨在解決模型開發者針對公開基準測試集進行過度優化(即「刷榜」)的問題。通過引入未公開的私有評估數據集,該排行榜將能更真實地反映 ASR 模型在實際應用中的泛化能力,防止虛高的排名誤導社群。
阿聯酋技術創新研究所(TII)在 Hugging Face 上推出了名為「QIMMA」(阿拉伯語意為「山頂」)的全新阿拉伯語 LLM 排行榜。該排行榜主打「品質優先」,旨在解決現有阿拉伯語評估基準中常見的翻譯失真與缺乏方言代表性等問題。QIMMA 透過更嚴格、更貼近在地文化的評測標準,為阿拉伯語 AI 模型的開發提供更具公信力的衡量指標。
本文探討了比較開源(如 Llama)與閉源(如 GPT、Claude)模型時,過度依賴單一評估指標(如 MMLU 或 Arena Elo)的盲點。作者指出,基準測試受提示詞敏感度、測試集污染及後訓練(Post-training)策略影響極大。未來,隨著推理期計算(Inference-time compute)與 Agent 應用的興起,評估模型性能的維度將發生根本性轉變。
Ecom-RLVE 是一個專為電子商務對話 Agent 設計的自適應可驗證環境。它解決了電商 AI 難以在動態場景下評估與確保合規性的痛點。透過模擬多樣化的用戶行為與後台 API,並結合自動驗證機制,開發者能更安全地訓練與測試具備工具調用能力的電商 Agent。
IBM Research 於 Hugging Face 發表全新基準測試「VAKRA」的分析報告。該測試專為評估 AI Agent 的核心能力而設計,著重於複雜的多步驟推理與動態工具調用。研究不僅評估了主流模型在 Agent 任務中的表現,更系統化地歸納出 Agent 的各類失敗模式(如工具誤用、推理漂移等),為開發者優化 Agent 系統提供關鍵指引。
ServiceNow AI 在 Hugging Face 上發布了名為「EVA」(Evaluating Voice Agents)的全新開源評估框架。該框架旨在解決傳統文字 LLM 評估無法涵蓋語音互動特性的痛點,專注於即時延遲、語音打斷、輪替(Turn-taking)及語意理解等多維度指標。這為開發下一代即時語音助理(如類似 GPT-4o 或 Gemini Live 的應用)提供了標準化的測試基準。
Google DeepMind 宣布推出一套用於衡量通用人工智慧(AGI)進展的「認知框架」,旨在解決傳統靜態基準測試容易因數據污染而失效的問題。該框架專注於評估系統的底層認知能力(如推理、規劃與學習)。同時,DeepMind 也在 Kaggle 上啟動了黑客松,邀請全球開發者與研究人員共同設計更具韌性、能真實反映 AGI 進程的評估工具。
本期 Import AI 探討了三個核心議題:首先是「核能 LLM」在能源與專業領域的應用與安全挑戰;其次是中國最新推出的國家級 AI 基準測試,展現其在評估本土模型上的野心;最後探討了 AI 評估與政策制定之間的關係,強調精確測量對監管的重要性。
Hugging Face 介紹了開源評估框架 OpenEnv 的實務應用。該框架旨在解決傳統靜態基準測試的不足,提供模擬真實世界(如作業系統、網頁瀏覽、API 呼叫)的動態環境。透過 OpenEnv,開發者能更準確地測試 AI Agent 在面對網路延遲、非預期錯誤及多步驟規劃時的真實表現,是推動 Agent 走向實用化的關鍵工具。
本文探討在 2026 年面對 Opus 4.6 與 Codex 5.3 等頂尖模型時,傳統靜態基準測試(如 MMLU)已完全失效。AI 評估正式進入「後基準時代」,重點轉向評估模型在複雜、多步驟的代理人任務(Agentic tasks)中的實際表現。未來,評估將更依賴動態環境、人類反饋與客製化的工作流模擬,而非單一的分數指標。
阿聯酋技術創新研究所(TII)推出了名為「Alyah」的全新評估基準,專門用於測試阿拉伯語大型語言模型(LLMs)在阿聯酋方言(Emirati Dialect)上的表現。由於阿拉伯語方言眾多且與現代標準阿拉伯語(MSA)差異顯著,Alyah 填補了區域方言評估的空白。此基準將有助於開發更貼近在地文化與日常溝通的阿拉伯語 AI 模型。
IBM Research 在 Hugging Face 上推出了 AssetOpsBench 互動遊樂場。這是一項專門針對工業資產營運(AssetOps)設計的 AI Agent 基準測試,旨在解決現有評估工具偏重軟體工程或網頁瀏覽,而缺乏工業實際場景的問題。它評估 Agent 在面對複雜工業手冊、感測器數據及企業資產管理系統時的規劃、工具調用與推理能力。
NVIDIA 與 Hugging Face 合作介紹「開放評測標準」,展示如何利用 NeMo Evaluator 工具對輕量級模型 Nemotron 3 Nano 進行系統化基準測試。此指南提供了一套可重現的評測食譜(Recipe),幫助開發者在邊緣設備或資源受限環境中,精確評估小模型的性能與偏差,推動開源社群的評測透明度。
Google DeepMind 發表全新的 FACTS 基準測試套件,專門用於系統化評估大型語言模型(LLM)的真實性。該套件解決了現有評估方法不夠全面或難以標準化的痛點,透過多維度的測試集與自動化評估指標,幫助研究人員與開發者精確量化模型的「幻覺」程度。這對於提升 AI 在高風險領域(如醫療、法律、金融)的實用性與信任度具有重要意義。
隨著 AI 提供的決策與建議在工作中變得越來越重要,傳統的簡單測試已不足以評估其極限。華頓商學院教授 Ethan Mollick 指出,我們需要透過結構化的「工作面試」流程,包含情境問答、極限測試與邏輯追問,來評估 AI 在特定任務中的真實實力、潛在偏見與幻覺機率,從而決定如何安全地與其協作。
Google DeepMind 發表全新開源平台「Game Arena」,旨在解決傳統 AI 基準測試逐漸失效的問題。該平台讓不同的前沿 AI 模型在具有明確勝負規則的遊戲環境中進行直接對決。透過這種動態且具對抗性的方式,Game Arena 能更精準、客觀地評估 AI 的決策與推理能力,為 AI 領域提供更具公信力的衡量標準。
Hugging Face 與 BigCode 合作推出全新評測平台「BigCodeArena」。該平台主打「端到端實際執行(Execution-based)」評測機制,將模型生成的程式碼置於安全沙盒中運行並進行單元測試。這解決了傳統「LLM 當裁判」或靜態分析無法驗證程式碼真實可用性的痛點,為開發者與研究人員提供更具公信力的 Code LLM 排行榜。
Hugging Face 發表全新檢索評估標準 RTEB(Retrieval Evaluation Benchmark)。相較於專注向量表徵的 MTEB,RTEB 更著重於 RAG 實戰中的端到端檢索表現。它涵蓋了混合檢索、重排(Reranking)及多跳推理等複雜場景,並提供開源評估工具,幫助開發者與研究人員精準衡量檢索器在真實應用中的效能。
Hugging Face 正式發表 Gaia2 基準測試與 ARE (Agent Run Environment) 框架。Gaia2 延續前代精神,設計了更複雜、防污染且貼近真實世界的多模態任務;而 ARE 則提供安全沙盒化的執行環境,解決了 Agent 測試中重現性低與安全風險的痛點。這套組合將大幅降低社群研究與評估 AI Agent 的門檻。
Hugging Face 發表全新評測基準「FilBench」,旨在評估 LLM 在菲律賓語上的理解與生成能力。由於菲律賓語在 NLP 領域常被視為資源較匱乏的語言,此基準填補了評測空白。FilBench 涵蓋多種任務,能協助研究人員與開發者客觀評估並優化模型在東南亞在地化應用的表現。
阿聯酋技術創新研究所(TII)在 Hugging Face 發布了名為「3LM」的全新評估基準。該基準專為阿拉伯語大語言模型(LLM)設計,旨在測試其在科學、技術、工程、數學(STEM)以及程式碼編寫等高難度領域的能力。這填補了目前多語言 AI 評估中,阿拉伯語技術性評測工具不足的空白。
Hugging Face 發表全新基準測試「FutureBench」,旨在評估 AI Agent 在預測未來事件(如地緣政治、金融市場及科技趨勢)上的表現。該測試挑戰了 Agent 的資訊檢索、機率推理與時間推理能力,有效避免了傳統基準測試中常見的資料洩漏問題。評估結果顯示,目前的 AI Agent 在面對未知的未來事件時,預測準確度與人類專家仍有顯著差距。
Hugging Face 與阿聯酋技術創新研究所(TII)聯合宣布 NeurIPS 2025 E2LM 競賽。該競賽聚焦於大語言模型(LLM)的「早期訓練評估」,旨在尋找能在訓練初期(僅消耗少數算力或數據時)即準確預測模型最終表現的方法。這將有助於大幅降低 LLM 研發的算力成本與時間,推動更高效、環保的 AI 開發流程。
Hugging Face 發表了 ScreenSuite,這是目前最全面的圖形使用者介面(GUI)Agent 評估套件。它解決了現有評估工具平台單一、任務簡單的問題,提供跨 Web、桌面與行動裝置的標準化測試環境。ScreenSuite 整合了多樣化的真實世界任務與嚴格的評估指標,幫助開發者精確衡量 Agent 的視覺導航與操作能力。
Hugging Face 介紹了由普林斯頓大學等機構提出的 HELMET 基準測試,旨在解決現有長文本評估(如 Needle In A Haystack)過於單一的問題。HELMET 包含 7 大類、11 個真實應用數據集,涵蓋長文本問答、摘要、資訊檢索與程式碼生成等。測試結果顯示,許多宣稱擁有超長上下文的模型,在實際複雜任務中的有效性能會隨著長度增加而顯著衰退。
Hugging Face 宣布升級其阿拉伯語大語言模型(LLM)評估體系。本次更新重點引入了「阿拉伯語指令遵循(Arabic IFEval)」評估,用以測試模型執行特定格式與約束指令的能力;同時更新了阿拉伯語生成基準「AraGen」。這些舉措旨在解決非英語系評估資源不足的問題,為全球開源社群提供更精準的阿拉伯語模型評估工具。
Hugging Face 發表指南,介紹如何將其輕量級 Agent 框架 `smolagents` 與開源 LLM 觀測平台 Arize Phoenix 整合。透過 OpenTelemetry 標準,開發者可以輕鬆追蹤 Agent 的決策步驟、工具調用與 LLM 互動。此整合不僅能可視化複雜的 Agent 工作流,還能進行系統化的效能評估,有效解決 Agent 開發中「黑盒子」與難以除錯的痛點。
Hugging Face 宣布在 Open LLM Leaderboard 中引入全新開源工具 Math-Verify。過去的數學評測常因模型輸出格式與標準答案不完全一致(如分數與小數)而導致誤判。Math-Verify 透過強大的數學表達式解析與等價性檢查,修正了這些評分偏差,讓開源模型的數學推理能力得到更真實的呈現。