阿聯酋技術創新研究所(TII)在 Hugging Face 上推出了名為「QIMMA」(阿拉伯語意為「山頂」)的全新阿拉伯語 LLM 排行榜。該排行榜主打「品質優先」,旨在解決現有阿拉伯語評估基準中常見的翻譯失真與缺乏方言代表性等問題。QIMMA 透過更嚴格、更貼近在地文化的評測標準,為阿拉伯語 AI 模型的開發提供更具公信力的衡量指標。
Hugging Face 宣布推出「Open FinLLM Leaderboard」,這是一個專為金融領域大語言模型(FinLLMs)設計的開源評測排行榜。該排行榜旨在解決通用評測基準無法準確反映金融專業能力的問題,透過多維度的金融數據集(如情感分析、關係抽取、金融問答等)來評估模型。這為金融機構與研究人員在選擇、微調和部署金融 AI 模型時,提供了一個透明且標準化的參考依據。
Hugging Face 宣布與 Artificial Analysis 合作推出「文字生成圖片排行榜與競技場」(Text to Image Leaderboard & Arena)。該平台結合了類似 LMSYS 的人類盲測對決(Arena Elo 評分)以及客觀的效能指標(如生成速度與成本)。這為開發者與創作者提供了一個透明、標準化的基準,用以評估與比較市面上主流的開源與閉源圖像生成模型。
Hugging Face 與韓國 AI 獨角獸 Upstage 合作推出「Open Ko-LLM 排行榜」,旨在解決韓語模型缺乏統一評估標準的問題。該排行榜基於開源社群力量,提供客觀的韓語 LLM 性能評比,涵蓋理解力、推理力及常識等多維度指標。此舉將大幅推動韓國本土開源 AI 生態系的發展,並為非英語系國家的 LLM 評估樹立新典範。
Hugging Face 推出全新的「幻覺排行榜」(Hallucinations Leaderboard),這是一項旨在量化評估大型語言模型(LLM)幻覺程度的開源計畫。該排行榜主要評估模型在處理檢索增強生成(RAG)和文本摘要等任務時,產生不實資訊的機率。透過提供公開透明的評測標準,幫助開發者在建構應用時選擇最不易出錯、最可靠的模型。
Hugging Face 與學術團隊合作推出了全新的「AI Secure LLM 安全排行榜」(基於 DecodingTrust 評估框架)。該排行榜旨在填補現有 LLM 評測偏重「能力」而忽略「安全」的空白,從毒性、刻板印象偏見、對抗強健性、隱私保護及機器倫理等 8 大安全維度,對主流開源與閉源模型進行系統性評測,為開發者提供更全面的模型安全選擇依據。