Hugging Face BlogOct 7, 2025, 9:37 AM重要 75

BigCodeArena: Judging code generations end to end with code executions

Hugging Face 與 BigCode 推出 BigCodeArena,藉由在沙盒中實際執行程式碼與單元測試,打造更客觀的程式碼模型評測平台。

Hugging Face 與 BigCode 合作推出全新評測平台「BigCodeArena」。該平台主打「端到端實際執行(Execution-based)」評測機制,將模型生成的程式碼置於安全沙盒中運行並進行單元測試。這解決了傳統「LLM 當裁判」或靜態分析無法驗證程式碼真實可用性的痛點,為開發者與研究人員提供更具公信力的 Code LLM 排行榜。

想看英文原文 / 完整內容?

前往 Hugging Face Blog 原文 →

摘要由 AI 整理,以原文為準。