Hugging Face BlogApr 16, 2024, 12:00 AM重要 75

Introducing the LiveCodeBench Leaderboard - Holistic and Contamination-Free Evaluation of Code LLMs

Hugging Face 推出 LiveCodeBench 排行榜,利用動態更新的競賽題目,提供防污染且全面的 Code LLM 評估。

Hugging Face 宣布上線 LiveCodeBench 排行榜,旨在解決傳統程式碼評估基準(如 HumanEval)容易遭受數據污染的問題。LiveCodeBench 透過持續收集 LeetCode、AtCoder 等平台的全新編程競賽題目,確保模型在未曾接觸過的數據上進行測試。該基準不僅評估程式碼生成,還涵蓋程式碼修復、測試案例生成及執行等多維度能力,為 Code LLM 提供更客觀、動態的實力排名。

想看英文原文 / 完整內容?

前往 Hugging Face Blog 原文 →

摘要由 AI 整理,以原文為準。