Google DeepMind 發表全新的 FACTS 基準測試套件,專門用於系統化評估大型語言模型(LLM)的真實性。該套件解決了現有評估方法不夠全面或難以標準化的痛點,透過多維度的測試集與自動化評估指標,幫助研究人員與開發者精確量化模型的「幻覺」程度。這對於提升 AI 在高風險領域(如醫療、法律、金融)的實用性與信任度具有重要意義。
Hugging Face 發表全新基準測試「TextQuests」,旨在評估大型語言模型(LLM)在文字冒險遊戲(如 Zork)中的表現。這類遊戲要求模型具備強大的自然語言理解、常識推理、長期規劃與狀態追蹤能力。測試結果顯示,儘管現今 LLM 在傳統基準上表現優異,但在面對需要多步驟決策與試錯的文字遊戲時仍面臨極大挑戰。
NVIDIA 在 Hugging Face 部落格分享了其開源且可移植的深度研究 Agent 成果。透過在 DeepResearch Bench 基準測試上評估開源的 Llama Nemotron 模型,該系統展現出極佳的研究與推理能力。此研究證明了開源模型在複雜、多步驟的研究任務中,已具備與閉源頂尖模型競爭的實力,為開發者提供了一個強大且可本地部署的 Deep Research 解決方案。
Hugging Face 介紹了全新的影片多模態基準測試「TimeScope」,旨在評估 Video LMM 處理長影片的能力。現有基準多侷限於短影片,而 TimeScope 挑戰模型在長時段影片中的時間推理、事件排序與資訊檢索。測試結果顯示,多數現行模型在影片長度增加時,理解與推理能力會顯著下降,揭示了現有技術的瓶頸。
Hugging Face 發表全新基準測試「FutureBench」,旨在評估 AI Agent 在預測未來事件(如地緣政治、金融市場及科技趨勢)上的表現。該測試挑戰了 Agent 的資訊檢索、機率推理與時間推理能力,有效避免了傳統基準測試中常見的資料洩漏問題。評估結果顯示,目前的 AI Agent 在面對未知的未來事件時,預測準確度與人類專家仍有顯著差距。
Hugging Face 介紹了由普林斯頓大學等機構提出的 HELMET 基準測試,旨在解決現有長文本評估(如 Needle In A Haystack)過於單一的問題。HELMET 包含 7 大類、11 個真實應用數據集,涵蓋長文本問答、摘要、資訊檢索與程式碼生成等。測試結果顯示,許多宣稱擁有超長上下文的模型,在實際複雜任務中的有效性能會隨著長度增加而顯著衰退。
Hugging Face 宣布推出針對阿拉伯語大語言模型(LLM)的全新評估基準「AraGen」及其排行榜。該基準採用創新的「3C3H」評估框架,從文化(Culture)、語境(Context)、能力(Capability)以及實用(Helpfulness)、誠實(Honesty)、無害(Harmlessness)六大維度進行評估。此舉旨在解決過去阿拉伯語評估過度依賴英文翻譯數據集、忽略在地文化與語言特性的問題,為多語言 AI 評估樹立新標竿。
本文介紹了首屆多語言大型語言模型(LLM)辯論賽。傳統的靜態評估方法(如多選題)已難以衡量模型的深層推理與說服力,因此研究人員設計了讓模型針對特定議題進行多輪多語言辯論的機制。透過這種動態對抗,不僅能更精準地評估模型在非英語環境下的邏輯一致性,也為 LLM 的安全性和對齊(Alignment)提供了全新的評估維度。
Hugging Face 與 AI 評估新創公司 Atla 合作推出「Judge Arena」基準測試。該項目旨在解決「LLM 作為裁判(LLM-as-a-judge)」時常見的偏見與失真問題,透過與人類專家評分進行對齊,系統化評估各家大模型在擔任裁判時的表現,為 AI 評估自動化提供更具公信力的參考標準。
Hugging Face 發表全新的 Transformers Code Agent,透過讓 AI 撰寫並執行 Python 程式碼來解決複雜任務。該方法在評估通用 AI 助理能力的 GAIA 基準測試上取得了 SOTA(當前最佳)表現,證明了「程式碼執行」作為 Agent 推理工具,遠比傳統的 JSON 工具調用(Tool Calling)更具彈性與效率。此專案已完全開源,為開發者提供構建高效能 Agent 的新選擇。
Hugging Face 與 Open Life Science AI 等機構合作推出「Open Medical-LLM Leaderboard」。該排行榜整合了 MedQA、MedMCQA、PubMedQA 及 MMLU 醫學子集等基準測試,旨在客觀評估 LLM 在醫療與臨床任務上的表現。這為醫療領域的 AI 研究人員與開發者提供了一個公開、標準化且易於比較的評估平台,有助於推動安全且精確的醫療 AI 發展。
Hugging Face 宣布上線 LiveCodeBench 排行榜,旨在解決傳統程式碼評估基準(如 HumanEval)容易遭受數據污染的問題。LiveCodeBench 透過持續收集 LeetCode、AtCoder 等平台的全新編程競賽題目,確保模型在未曾接觸過的數據上進行測試。該基準不僅評估程式碼生成,還涵蓋程式碼修復、測試案例生成及執行等多維度能力,為 Code LLM 提供更客觀、動態的實力排名。
Hugging Face 推出全新的 NPHardEval 排行榜,旨在透過計算複雜度理論(如 P、NP-Complete、NP-Hard 問題)來嚴格評估大型語言模型(LLM)的邏輯推理與規劃能力。為了解決傳統基準測試容易因訓練數據污染而失效的問題,NPHardEval 採用動態更新機制,定期生成全新測驗。這項工具能幫助研究人員更準確地衡量模型在面對複雜優化問題時的真實推理極限。
Hugging Face 與 AI 評測新創 Patronus AI 合作,推出全新的「企業情境排行榜」(Enterprise Scenarios Leaderboard)。此排行榜旨在解決傳統學術基準(如 MMLU)與實際企業應用脫節的問題。評測涵蓋金融分析(如 SEC 申報文件)、法律合約理解、客戶服務以及隱私資訊(PII)防範等真實場景,為企業選擇最適合的 LLM 提供客觀的實戰數據參考。