Hugging Face BlogJun 23, 2023, 12:00 AM重要 75

What's going on with the Open LLM Leaderboard?

Hugging Face 解釋為何 Open LLM 排行榜上的 MMLU 分數與官方論文不符,指出評測格式對結果有巨大影響。

本文探討 Hugging Face Open LLM 排行榜上模型分數(特別是 MMLU)與官方論文宣稱不一致的原因。Hugging Face 指出,評測對 Prompt 格式、Few-shot 設定及 Token 機率計算方式極為敏感。為了確保公平與可重複性,排行榜統一採用 EleutherAI 的 lm-evaluation-harness,呼籲社群建立標準化評測規範。

想看英文原文 / 完整內容?

前往 Hugging Face Blog 原文 →

摘要由 AI 整理,以原文為準。