Hugging Face 宣布為其 Open ASR(自動語音識別)排行榜引入「Benchmaxxer 驅逐劑」。此舉旨在解決模型開發者針對公開基準測試集進行過度優化(即「刷榜」)的問題。通過引入未公開的私有評估數據集,該排行榜將能更真實地反映 ASR 模型在實際應用中的泛化能力,防止虛高的排名誤導社群。
Hugging Face 推出全新的 NPHardEval 排行榜,旨在透過計算複雜度理論(如 P、NP-Complete、NP-Hard 問題)來嚴格評估大型語言模型(LLM)的邏輯推理與規劃能力。為了解決傳統基準測試容易因訓練數據污染而失效的問題,NPHardEval 採用動態更新機制,定期生成全新測驗。這項工具能幫助研究人員更準確地衡量模型在面對複雜優化問題時的真實推理極限。
Hugging Face 針對 Open LLM 排行榜中的 DROP(離散推理)基準測試進行深度剖析。調查發現,許多開源模型之所以獲得異常高分,並非因為推理能力超越 GPT-4,而是源於對評估格式的過度擬合(Overfitting)或資料污染(Contamination)。為此,官方調整了評估與解析機制,使評分回歸真實水平,並呼籲社群建立更嚴謹的評估標準。