Hugging Face BlogDec 1, 2023, 12:00 AM重要 75

Open LLM Leaderboard: DROP deep dive

Hugging Face 深入調查 Open LLM 排行榜上 DROP 基準測試的分數異常,揭示模型「刷榜」背後的格式微調與資料污染問題。

Hugging Face 針對 Open LLM 排行榜中的 DROP(離散推理)基準測試進行深度剖析。調查發現,許多開源模型之所以獲得異常高分,並非因為推理能力超越 GPT-4,而是源於對評估格式的過度擬合(Overfitting)或資料污染(Contamination)。為此,官方調整了評估與解析機制,使評分回歸真實水平,並呼籲社群建立更嚴謹的評估標準。

想看英文原文 / 完整內容?

前往 Hugging Face Blog 原文 →

摘要由 AI 整理,以原文為準。