Hugging Face BlogJun 18, 2024, 12:00 AM重要 80

BigCodeBench: The Next Generation of HumanEval

Hugging Face 推出 BigCodeBench 評測榜單,專注評估大模型在真實開發場景與第三方函式庫(如 pandas, numpy)下的程式碼生成能力。

傳統的 HumanEval 程式碼評測基準已逐漸飽和且過於簡單。Hugging Face 與研究團隊合作推出新一代基準 BigCodeBench,包含 1,140 個實用編程任務,涵蓋 139 個第三方 Python 函式庫。此基準旨在考驗 LLM 在複雜、多步驟及真實開發場景下的程式碼生成與指令遵循能力,成為評估 Code LLM 的新一代標準。

想看英文原文 / 完整內容?

前往 Hugging Face Blog 原文 →

摘要由 AI 整理,以原文為準。