Hugging Face BlogFeb 14, 2025, 12:00 AM重要 78

Fixing Open LLM Leaderboard with Math-Verify

Hugging Face 推出開源工具 Math-Verify,修正 Open LLM Leaderboard 數學評測的格式解析錯誤,提供更公平的排名。

Hugging Face 宣布在 Open LLM Leaderboard 中引入全新開源工具 Math-Verify。過去的數學評測常因模型輸出格式與標準答案不完全一致(如分數與小數)而導致誤判。Math-Verify 透過強大的數學表達式解析與等價性檢查,修正了這些評分偏差,讓開源模型的數學推理能力得到更真實的呈現。

想看英文原文 / 完整內容?

前往 Hugging Face Blog 原文 →

摘要由 AI 整理,以原文為準。