What's going on with the Open LLM Leaderboard?★ 75
Hugging Face Blog·1075d ago·Commentary
本文探討 Hugging Face Open LLM 排行榜上模型分數(特別是 MMLU)與官方論文宣稱不一致的原因。Hugging Face 指出,評測對 Prompt 格式、Few-shot 設定及 Token 機率計算方式極為敏感。為了確保公平與可重複性,排行榜統一採用 EleutherAI 的 lm-evaluation-harness,呼籲社群建立標準化評測規範。