Hugging Face 與 IBM Research 合作發表「Open Agent Leaderboard」,這是一個專為 AI 智能體(Agent)設計的全新開源排行榜。傳統的 LLM 評測難以衡量模型在實際任務中的多步驟規劃與工具調用能力,該排行榜整合了多個主流 Agent 評測集,提供客觀、標準化的評估標準,推動開源 Agent 生態系的發展。
阿聯酋技術創新研究所(TII)在 Hugging Face 上推出了名為「QIMMA」(阿拉伯語意為「山頂」)的全新阿拉伯語 LLM 排行榜。該排行榜主打「品質優先」,旨在解決現有阿拉伯語評估基準中常見的翻譯失真與缺乏方言代表性等問題。QIMMA 透過更嚴格、更貼近在地文化的評測標準,為阿拉伯語 AI 模型的開發提供更具公信力的衡量指標。
Hugging Face 宣布升級其 Open ASR Leaderboard,正式引入「多語言」與「長音訊」兩大全新評測賽道。這項更新解決了過去 ASR 評測過於依賴短英文語音的痛點。新賽道不僅能更客觀地評估模型在全球多語系環境下的實用性,還能考驗模型在處理會議、播客等長篇語音時的幻覺控制與分段對齊能力,為開源語音社群提供更具實戰價值的參考基準。
Hugging Face 宣布升級其阿拉伯語大語言模型(LLM)評估體系。本次更新重點引入了「阿拉伯語指令遵循(Arabic IFEval)」評估,用以測試模型執行特定格式與約束指令的能力;同時更新了阿拉伯語生成基準「AraGen」。這些舉措旨在解決非英語系評估資源不足的問題,為全球開源社群提供更精準的阿拉伯語模型評估工具。
Hugging Face 宣布在 Open LLM Leaderboard 中引入全新開源工具 Math-Verify。過去的數學評測常因模型輸出格式與標準答案不完全一致(如分數與小數)而導致誤判。Math-Verify 透過強大的數學表達式解析與等價性檢查,修正了這些評分偏差,讓開源模型的數學推理能力得到更真實的呈現。
Hugging Face 宣布推出「開源阿拉伯語大語言模型排行榜 2.0」。本次更新旨在解決舊版基準過時與數據污染問題,引入了更具挑戰性的評測數據集,涵蓋推理、數學、文化理解等維度。新版本採用 Lighteval 評估工具並加強防作弊機制,為阿拉伯語 AI 研究提供更具公信力的評估標準。
Hugging Face 宣布推出針對阿拉伯語大語言模型(LLM)的全新評估基準「AraGen」及其排行榜。該基準採用創新的「3C3H」評估框架,從文化(Culture)、語境(Context)、能力(Capability)以及實用(Helpfulness)、誠實(Honesty)、無害(Harmlessness)六大維度進行評估。此舉旨在解決過去阿拉伯語評估過度依賴英文翻譯數據集、忽略在地文化與語言特性的問題,為多語言 AI 評估樹立新標竿。
Hugging Face 宣布推出專為日語設計的「開放式日語 LLM 排行榜」。該排行榜旨在解決現有英文基準無法準確評估日語能力的問題,採用了多個日語標準評測數據集。這將為開發者與研究人員提供一個公開、透明且可重複驗證的平台,用以評估與比較各類開源日語大語言模型的表現。
Hugging Face 宣布推出「Open FinLLM Leaderboard」,這是一個專為金融領域大語言模型(FinLLMs)設計的開源評測排行榜。該排行榜旨在解決通用評測基準無法準確反映金融專業能力的問題,透過多維度的金融數據集(如情感分析、關係抽取、金融問答等)來評估模型。這為金融機構與研究人員在選擇、微調和部署金融 AI 模型時,提供了一個透明且標準化的參考依據。
Hugging Face 宣布與 Artificial Analysis 合作推出「文字生成圖片排行榜與競技場」(Text to Image Leaderboard & Arena)。該平台結合了類似 LMSYS 的人類盲測對決(Arena Elo 評分)以及客觀的效能指標(如生成速度與成本)。這為開發者與創作者提供了一個透明、標準化的基準,用以評估與比較市面上主流的開源與閉源圖像生成模型。
Hugging Face 宣布推出「Open Arabic LLM Leaderboard」,這是一個專為阿拉伯語大語言模型設計的開源評測排行榜。該平台旨在解決阿拉伯語在 AI 評測上的資源匱乏問題,透過多維度的基準測試(如文化理解、推理與語言生成),幫助社群客觀評估並推動阿拉伯語 AI 模型的發展。
Hugging Face 宣布推出「希伯來語 LLM 開放排行榜」(Open Leaderboard for Hebrew LLMs)。該平台旨在為希伯來語的大型語言模型提供客觀、標準化且開源的評估基準,解決非英語系語言在主流評測中資源匱乏的問題,有助於開發者評估與優化特定語系模型的表現。
Hugging Face 宣布與獨立評測機構 Artificial Analysis 合作,將其 LLM 效能排行榜引入平台。該榜單不僅評估模型品質,更著重於實際部署指標,如吞吐量(Tokens/sec)、首字延遲(TTFT)與每百萬 Token 的成本。這讓開發者在選擇模型與託管服務商(如 Groq、Together AI 等)時,能有更直觀且數據驅動的決策依據。
Hugging Face 發表「Open Chain of Thought (CoT) 排行榜」,旨在解決傳統基準測試無法有效評估模型推理過程的問題。該排行榜專注於數學、邏輯與科學等需要多步驟思考的任務,並提供公開透明的評測標準。這將幫助開發者與研究人員深入了解開源模型在複雜推理上的真實實力與瓶頸。
Hugging Face 與 Open Life Science AI 等機構合作推出「Open Medical-LLM Leaderboard」。該排行榜整合了 MedQA、MedMCQA、PubMedQA 及 MMLU 醫學子集等基準測試,旨在客觀評估 LLM 在醫療與臨床任務上的表現。這為醫療領域的 AI 研究人員與開發者提供了一個公開、標準化且易於比較的評估平台,有助於推動安全且精確的醫療 AI 發展。
Hugging Face 與韓國 AI 獨角獸 Upstage 合作推出「Open Ko-LLM 排行榜」,旨在解決韓語模型缺乏統一評估標準的問題。該排行榜基於開源社群力量,提供客觀的韓語 LLM 性能評比,涵蓋理解力、推理力及常識等多維度指標。此舉將大幅推動韓國本土開源 AI 生態系的發展,並為非英語系國家的 LLM 評估樹立新典範。
Hugging Face 推出全新的「幻覺排行榜」(Hallucinations Leaderboard),這是一項旨在量化評估大型語言模型(LLM)幻覺程度的開源計畫。該排行榜主要評估模型在處理檢索增強生成(RAG)和文本摘要等任務時,產生不實資訊的機率。透過提供公開透明的評測標準,幫助開發者在建構應用時選擇最不易出錯、最可靠的模型。
Hugging Face 與學術團隊合作推出了全新的「AI Secure LLM 安全排行榜」(基於 DecodingTrust 評估框架)。該排行榜旨在填補現有 LLM 評測偏重「能力」而忽略「安全」的空白,從毒性、刻板印象偏見、對抗強健性、隱私保護及機器倫理等 8 大安全維度,對主流開源與閉源模型進行系統性評測,為開發者提供更全面的模型安全選擇依據。
本教學詳細介紹如何從頭構建一個自訂的 Hugging Face 模型排行榜。文章以 Vectara 的「LLM 幻覺排行榜(Hallucination Leaderboard)」為實際案例,展示如何結合 Hugging Face Spaces(使用 Gradio)與 Datasets 儲存評測數據,並實現自動化更新與前端展示。這對於想要建立特定領域(如 RAG、安全、特定語言)模型評估標準的開發者與研究人員非常實用。
Hugging Face 針對 Open LLM 排行榜中的 DROP(離散推理)基準測試進行深度剖析。調查發現,許多開源模型之所以獲得異常高分,並非因為推理能力超越 GPT-4,而是源於對評估格式的過度擬合(Overfitting)或資料污染(Contamination)。為此,官方調整了評估與解析機制,使評分回歸真實水平,並呼籲社群建立更嚴謹的評估標準。
Hugging Face 宣布推出「物件偵測排行榜」(Object Detection Leaderboard),旨在為電腦視覺社群提供一個公開、透明的平台,用以評估和比較各種物件偵測模型。該排行榜主要基於 COCO 數據集進行評估,涵蓋了從傳統的 CNN 架構(如 YOLO)到新興的 Transformer 架構(如 DETR)等多種模型。用戶可以直接提交託管在 Hugging Face Hub 上的模型進行評測,比較其精準度(mAP)與參數量等關鍵指標。
本文探討 Hugging Face Open LLM 排行榜上模型分數(特別是 MMLU)與官方論文宣稱不一致的原因。Hugging Face 指出,評測對 Prompt 格式、Few-shot 設定及 Token 機率計算方式極為敏感。為了確保公平與可重複性,排行榜統一採用 EleutherAI 的 lm-evaluation-harness,呼籲社群建立標準化評測規範。