Introducing FrontierCode
Original: FrontierCode
Cognition introduced FrontierCode, a benchmark for whether AI-written code is truly mergeable in production codebases.
Cognition launched FrontierCode, a coding benchmark focused on mergeability rather than only functional correctness. It evaluates correctness, tests, scope discipline, style, and repository-specific quality standards. Built with open-source maintainers and extensive quality control, it shows current frontier models still struggle: Claude Opus 4.8 scores 13.4% on the hardest Diamond subset, ahead of GPT-5.5 and Gemini 3.1 Pro.
Cognition 發表 FrontierCode,主張現有 coding benchmark 已不足以衡量 AI coding agent 的實際生產能力。文章指出,過去像 SWE-Bench Verified、SWE-Bench Pro 這類評測主要測功能正確性,但當模型已能寫出「會過測試」的程式碼後,更重要的問題變成:這份 PR 是否真的會被維護者合併?FrontierCode 因此把評估重點放在 mergeability,也就是端到端程式碼品質,包含行為正確性、回歸安全、build/lint/style 機械檢查、agent 自寫測試是否有效、修改範圍是否克制,以及是否符合專案慣例與可讀性。其任務由 20 多位開源維護者打造,來自 36 個重要開源 repository,每題投入超過 40 小時,並經過對抗測試、rubric calibration、多階段審查與 Cognition 研究員人工 review。FrontierCode 分成 Extended、Main、Diamond 三個難度子集,Diamond 是最難的 50 題。評測顯示,即使最強模型在這個標準下也表現有限:Claude Opus 4.8 在 Diamond 得分 13.4%,GPT-5.5 為 6.3%,Gemini 3.1 Pro 為 4.7%;但 GPT-5.5 使用 token 最多可少到 Opus 4.8 的四分之一,成本與智慧的取捨較佳。在 Main 與 Extended,Opus 4.8 仍領先,分別為 34.3% 與 51.8%。最佳開源模型 Kimi K2.6 在 Diamond、Main、Extended 分別為 3.8%、16%、37%,顯示開源模型與 frontier 模型仍有差距。文章也介紹 reverse-classical、scope、adaptive classical grading 等新評分方法,用來降低誤判並容納多種有效解法。Cognition 目前不打算公開題目以避免污染,但會向模型開發者開放評測。
Free shows the 3-line summary; Pro unlocks the full deep summary (~300 words) so you never have to click through.
See Pro plans →Want the original English / full article?
Read on Hacker News (AI keywords) →Related
Summaries are AI-generated; the original article is authoritative.