Open LLM Leaderboard: DROP deep dive★ 75
Hugging Face Blog·914d ago·Commentary
Hugging Face 針對 Open LLM 排行榜中的 DROP(離散推理)基準測試進行深度剖析。調查發現,許多開源模型之所以獲得異常高分,並非因為推理能力超越 GPT-4,而是源於對評估格式的過度擬合(Overfitting)或資料污染(Contamination)。為此,官方調整了評估與解析機制,使評分回歸真實水平,並呼籲社群建立更嚴謹的評估標準。