Hugging Face 發表了專為捷克語設計的全新大型語言模型(LLM)評估基準「BenCzechMark」。由於多數主流基準測試皆以英語為主,此項目旨在填補捷克語在 AI 評估領域的空白。該基準涵蓋多種語言理解與生成任務,能更準確地衡量模型在捷克語語境與文化背景下的實際表現。
Hugging Face 發表全新的 Transformers Code Agent,透過讓 AI 撰寫並執行 Python 程式碼來解決複雜任務。該方法在評估通用 AI 助理能力的 GAIA 基準測試上取得了 SOTA(當前最佳)表現,證明了「程式碼執行」作為 Agent 推理工具,遠比傳統的 JSON 工具調用(Tool Calling)更具彈性與效率。此專案已完全開源,為開發者提供構建高效能 Agent 的新選擇。
傳統的 HumanEval 程式碼評測基準已逐漸飽和且過於簡單。Hugging Face 與研究團隊合作推出新一代基準 BigCodeBench,包含 1,140 個實用編程任務,涵蓋 139 個第三方 Python 函式庫。此基準旨在考驗 LLM 在複雜、多步驟及真實開發場景下的程式碼生成與指令遵循能力,成為評估 Code LLM 的新一代標準。
Hugging Face 與 Open Life Science AI 等機構合作推出「Open Medical-LLM Leaderboard」。該排行榜整合了 MedQA、MedMCQA、PubMedQA 及 MMLU 醫學子集等基準測試,旨在客觀評估 LLM 在醫療與臨床任務上的表現。這為醫療領域的 AI 研究人員與開發者提供了一個公開、標準化且易於比較的評估平台,有助於推動安全且精確的醫療 AI 發展。
Hugging Face 宣布上線 LiveCodeBench 排行榜,旨在解決傳統程式碼評估基準(如 HumanEval)容易遭受數據污染的問題。LiveCodeBench 透過持續收集 LeetCode、AtCoder 等平台的全新編程競賽題目,確保模型在未曾接觸過的數據上進行測試。該基準不僅評估程式碼生成,還涵蓋程式碼修復、測試案例生成及執行等多維度能力,為 Code LLM 提供更客觀、動態的實力排名。
Hugging Face 發表全新基準測試「ConTextual」並上線排行榜。該基準專注於評估多模態大模型(MLLM)在處理「富含文本的圖像」(如圖表、資訊圖表、街景招牌等)時的圖文聯合推理能力。這項測試超越了單純的 OCR 文字識別,更考驗模型結合視覺上下文與文本進行深度推理的實力,為評估當前頂尖多模態模型提供了更貼近真實應用場景的標準。
Hugging Face 發表全新語音模型評測平台「TTS Arena」。該平台借鑑了 LMSYS Chatbot Arena 的群眾外包盲測機制,讓使用者聆聽兩段由不同匿名 TTS 模型生成的語音並進行投票。透過 Elo 評分系統,TTS Arena 旨在解決傳統客觀指標無法準確反映人類聽覺偏好的痛點,建立一個客觀且動態的語音合成模型排行榜。
Hugging Face 推出全新的 NPHardEval 排行榜,旨在透過計算複雜度理論(如 P、NP-Complete、NP-Hard 問題)來嚴格評估大型語言模型(LLM)的邏輯推理與規劃能力。為了解決傳統基準測試容易因訓練數據污染而失效的問題,NPHardEval 採用動態更新機制,定期生成全新測驗。這項工具能幫助研究人員更準確地衡量模型在面對複雜優化問題時的真實推理極限。
Hugging Face 與 AI 評測新創 Patronus AI 合作,推出全新的「企業情境排行榜」(Enterprise Scenarios Leaderboard)。此排行榜旨在解決傳統學術基準(如 MMLU)與實際企業應用脫節的問題。評測涵蓋金融分析(如 SEC 申報文件)、法律合約理解、客戶服務以及隱私資訊(PII)防範等真實場景,為企業選擇最適合的 LLM 提供客觀的實戰數據參考。
Hugging Face 發布 Habana Gaudi2 與 Nvidia A100 80GB 的基準測試對比。結果顯示,Gaudi2 在 BERT 和 T5 等主流模型的訓練速度上比 A100 快上近兩倍。透過 optimum-habana 庫,開發者只需修改極少程式碼即可無縫轉移,為 Nvidia 晶片短缺與高成本提供了強力的替代方案。
Hugging Face 發表了「海量文字嵌入基準(MTEB)」,這是目前最全面的文字嵌入模型評估工具。MTEB 涵蓋了 8 種不同的任務類型(如語義相似度、資訊檢索、分類等),共包含 58 個數據集,支援多達 112 種語言。此基準旨在解決過去評估嵌入模型時任務單一、缺乏多語言支持的問題,為開發者提供統一的評估標準。
隨著大型語言模型(LLM)體積急劇膨脹,如何公平且標準化地評估其性能成為一大挑戰。Hugging Face 宣布與 EleutherAI 合作,將其著名的 lm-evaluation-harness 整合至 Hugging Face Hub。用戶現在可以直接在 Hub 上對託管的模型進行零樣本(Zero-shot)與少樣本(Few-shot)評估,這不僅簡化了評估流程,更促進了開源 AI 社群的基準測試透明度與可重複性。