Simon Willison 在 PyCon US 2026 的 5 分鐘閃電演講中,回顧了自 2025 年 11 月以來的 LLM 關鍵進展。他指出這半年間「最強模型」在三大巨頭間易手五次(包含 GPT-5.1、Gemini 3 與 Claude Opus 4.5)。最重要的是,得益於可驗證獎勵的強化學習(RLVR),程式碼生成 Agent(如 Claude Code)已跨越實用門檻,成為開發者的日常主力工具。
Anthropic 旗下熱門命令列 AI 助手 Claude Code 的產品主管 Cat Wu 近日接受專訪。她透露團隊在開發這款 Agent 工具時「沒有宏偉的藍圖」,而是採取刻意為之的靈活迭代策略。訪談重點圍繞在開發者最關心的 API 使用額度與成本限制、如何透過高透明度介面建立信任,以及如何利用「精簡測試架構(lean harness)」在不犧牲效能的前提下,優化 Agent 的執行效率與準確度。
本期 AINews 聚焦於 AI 寫程式 Agent 的長期發展趨勢。Anthropic 開始針對 Claude 的程式化使用(Programmatic Usage)進行計量與限制,這將直接影響開發者透過自動化腳本或第三方工具調用 Claude 的成本。另一方面,Codex 相關的自動化編程 Agent 影響力持續上升,顯示出 AI 在軟體開發流程中的滲透率正穩定增加。
Google DeepMind 發表 AlphaEvolve 的最新進展。這款由 Gemini 驅動的程式碼 Agent(Coding Agent)透過先進的演算法,在商業營運、基礎設施優化以及科學研究三大領域展現強大影響力。它不僅能自動化編寫程式,更能自我演化以適應複雜的跨領域需求,加速技術落地。
本期 Import AI 深入探討三個核心議題:首先是 AI Agent 在面對惡意輸入與複雜環境時的脆弱性與破解方法;其次介紹了代碼生成領域的新技術或基準測試 MirrorCode;最後,透過十種不同視角,探討人類因逐漸將決策權讓渡給 AI 系統而導致的「漸進式失權(Gradual Disempowerment)」風險,並以「火的發明是否等同於當時人類的奇點」進行哲學反思。
本文探討如何「解放」開源 CLI 開發 Agent 工具 OpenClaw。隨著類似 Claude Code 的終端機 Agent 工具興起,Hugging Face 介紹了如何將 OpenClaw 與 Llama、Qwen 等開源模型整合。透過 Hugging Face 的推論 API 或本地部署,開發者可以不再受限於單一閉源 API,實現高自由度、低成本且隱私安全的自主開發流程。
本文探討了 GPT 5.4 對於 OpenAI 旗下 Codex(代碼與 Agent 生態)帶來的重大進展。作者 Nathan L. 深入評估了當前 AI Agent 的前沿發展,分析了 GPT 5.4 的進步。然而,儘管 GPT 5.4 取得了顯著突破,作者也解釋了在實際開發與評估中,他依然更傾向於選擇 Anthropic 的 Claude 的原因。
本期 Import AI 涵蓋三大前沿議題:首先探討如何量化 AI 的「創意」與 LLM 社會模擬(LLM societies)的最新進展;其次聚焦華為利用 AI 技術自動生成與優化作業系統核心(Kernel)的實踐,展示 AI 在系統級程式設計的潛力;最後介紹 ChipBench,這是一個評估 AI 在晶片設計與硬體描述語言(HDL)生成能力的全新基準測試。
知名 AI 學者 Ethan Mollick 撰文分析 Anthropic 最新釋出的命令列工具 Claude Code。他指出,這款工具代表了 AI 從單純的「對話框」走向「自主代理人(Agent)」的重大轉變。Claude Code 不僅能寫程式,還能直接在終端機執行、測試、根據錯誤訊息自我修正並完成 Git 提交。這預示著未來所有工作流程都將被這種「給予工具並讓其自主嘗試」的 Agent 模式所顛覆。
Google DeepMind 發表最新突破,旗下 Gemini 2.5 Deep Think 模型在國際大學生程式設計競賽(ICPC)世界總決賽中展現出金牌等級的表現。這項成就代表 AI 在抽象問題解決、複雜演算法設計與程式碼除錯能力上取得了巨大飛躍。該模型透過深度思考與自我修正機制,成功攻克了原本只有全球頂尖人類程式設計師才能解決的難題。
Google DeepMind 發表全新 AI Agent「CodeMender」,旨在解決軟體安全中的關鍵漏洞修復難題。CodeMender 不僅能自動偵測程式碼中的安全漏洞,還能主動生成修復補丁並進行驗證。這項技術結合了先進的大型語言模型與自動化測試,大幅提升了軟體開發生命週期中的安全性與修復效率。
Hugging Face 與 BigCode 合作推出全新評測平台「BigCodeArena」。該平台主打「端到端實際執行(Execution-based)」評測機制,將模型生成的程式碼置於安全沙盒中運行並進行單元測試。這解決了傳統「LLM 當裁判」或靜態分析無法驗證程式碼真實可用性的痛點,為開發者與研究人員提供更具公信力的 Code LLM 排行榜。
Replicate 宣布推出遠端 MCP(Model Context Protocol)伺服器,將其平台上的數萬個開源模型直接接入開發工作流。使用者現在無需離開編輯器或聊天介面,即可在 Claude Desktop、Cursor 和 VS Code 等工具中,直接搜尋、比較並執行 Replicate 上的模型。這項更新大幅簡化了開發者測試與整合各種開源 AI 模型(如 Llama、Flux 等)的流程,提升開發效率。
阿聯酋技術創新研究所(TII)在 Hugging Face 發布了名為「3LM」的全新評估基準。該基準專為阿拉伯語大語言模型(LLM)設計,旨在測試其在科學、技術、工程、數學(STEM)以及程式碼編寫等高難度領域的能力。這填補了目前多語言 AI 評估中,阿拉伯語技術性評測工具不足的空白。
Vercel 宣布推出支援模型上下文協定(MCP)的新工具,允許 AI 代理與開發工具(如 Claude)直接檢索數百萬個 GitHub 公開儲存庫。開發者現在可以讓 AI 快速搜尋開源社群中的特定 API 用法、程式碼範例或設定檔,大幅提升開發效率與程式碼生成的準確性。
Google DeepMind 宣布更新 Gemini 2.5 系列模型。備受開發者喜愛的 Gemini 2.5 Pro 將推出實驗性的「Deep Think」增強推理模式,大幅提升複雜問題的解決能力;同時,主打輕量高效的 Gemini 2.5 Flash 也獲得全新升級,帶來更強大的功能與效能表現。
OpenAI 正式發表新一代推理模型 o3 與 o4-mini,強調透過 10 倍強化學習(RL)算力提升推理效率。o4-mini 不僅價格更便宜,在多項指標、視覺與工具調用能力上皆有顯著進步。此外,OpenAI 還驚喜推出了完全開源的終端機 AI 工具 Codex CLI,直接對標 Anthropic 的 Claude Code。
Together 與 Agentica Project(曾推出 DeepScaleR)聯合發表了全新 14B 程式碼推理模型「DeepCoder」。該模型完全開源,並採用 GPRO+(Group Relative Policy Optimization+)強化學習技術。在多項程式碼基準測試中,DeepCoder 展現出媲美 OpenAI o3-mini 的強大實力,是開源 AI 推理領域的重大突破。
Hugging Face 發表指南,介紹如何利用 LM Studio 在本機運行 Open R1 計畫的 OlympicCoder 模型。OlympicCoder 是專為程式設計與推理優化的開源模型。透過本機部署,開發者無需將程式碼上傳至雲端,即可享受媲美頂級商用模型的程式碼生成與除錯能力,兼顧隱私與效能。
Hugging Face 發表輕量級 AI Agent 框架「smolagents」,核心概念為「Code Agents」。與傳統輸出 JSON 的 Agent 不同,它讓 LLM 直接生成 Python 程式碼來執行複雜任務,大幅提升表達力與靈活性。該框架程式碼極簡(約千行),並內置安全的 Python 執行沙箱,支援多種主流 LLM 供應商。
Replicate 發布最新技術情報,重點介紹在平台上架的超強開源程式碼模型 DeepSeek-Coder-V2,其性能在多項指標上超越 GPT-4 Turbo。此外,文章探討了 AI 搜尋技術的最新突破,以及 Replicate 如何利用自身平台技術構建 Discord 社群專用的自動化客服支援機器人,展示了開源 AI 在實際開發與社群營運中的強大應用潛力。
傳統的 HumanEval 程式碼評測基準已逐漸飽和且過於簡單。Hugging Face 與研究團隊合作推出新一代基準 BigCodeBench,包含 1,140 個實用編程任務,涵蓋 139 個第三方 Python 函式庫。此基準旨在考驗 LLM 在複雜、多步驟及真實開發場景下的程式碼生成與指令遵循能力,成為評估 Code LLM 的新一代標準。
Hugging Face 與 BigCode 社群推出 StarCoder2-Instruct-15B。該模型最大特色在於採用「完全透明」與「寬鬆授權」的自我對齊流程。傳統指令模型常依賴 GPT-4 生成數據導致商用受限,而 StarCoder2-Instruct 完全使用開源模型自身生成數據進行訓練,在確保商用合規的同時,於 HumanEval 等基準測試中展現優異性能。
Hugging Face 宣布上線 LiveCodeBench 排行榜,旨在解決傳統程式碼評估基準(如 HumanEval)容易遭受數據污染的問題。LiveCodeBench 透過持續收集 LeetCode、AtCoder 等平台的全新編程競賽題目,確保模型在未曾接觸過的數據上進行測試。該基準不僅評估程式碼生成,還涵蓋程式碼修復、測試案例生成及執行等多維度能力,為 Code LLM 提供更客觀、動態的實力排名。
Google 官方正式發布 CodeGemma 程式碼模型系列,基於 Gemma 架構。提供專攻 IDE 程式碼補全(Fill-in-the-Middle)的 2B 版本,以及適合程式碼生成與對話的 7B 版本。該系列模型已深度整合至 Hugging Face 生態系,支援多種主流程式語言,為開發者提供高效且可本地運行的開源 AI 助手選擇。
由 Hugging Face 與 ServiceNow 主導的 BigCode 社群,聯合 NVIDIA 正式發布了新一代開源程式碼大語言模型 StarCoder2。該系列提供 3B、7B 和 15B 三種參數版本,並同步推出全新升級的 The Stack v2 資料集。StarCoder2 支援超過 600 種程式語言,並在程式碼生成、補全與修復等任務上展現出同量級模型中的頂尖性能,持續推動負責任且開放的 AI 開發。
Hugging Face 推出針對企業設計的 SafeCoder 程式碼助手,旨在解決使用 GitHub Copilot 等閉源工具時的隱私與智慧財產權疑慮。SafeCoder 基於開源的 StarCoder 模型,支援在企業內部的 VPC 或地端環境部署,並允許企業使用私有程式碼進行微調。這項方案不僅確保程式碼不外流,還能提供高度客製化的開發輔助體驗。
Meta 正式發布專為程式碼任務設計的開源模型 Code Llama,提供 7B、13B 與 34B 三種尺寸,並包含 Python 專用版與指令微調版。該模型支援高達 100k 的上下文視窗,在多項程式碼基準測試中表現優異。Hugging Face 已同步支援該系列模型的推理、部署與微調。
Hugging Face 宣布推出 SafeCoder,這是一套專為企業打造的程式碼寫作助手解決方案。SafeCoder 主打高度隱私與合規性,允許企業在自有的 VPC 或本地環境中部署,並能使用私有程式碼庫進行微調。該方案基於開源的 StarCoder 模型,旨在為企業提供一個可完全掌控、安全且不洩漏敏感資料的 GitHub Copilot 替代方案。
Hugging Face 發表 StarChat Alpha,這是一個基於 15B 參數 StarCoder 基礎模型進行指令微調的對話式程式助手。透過特定的對話模板與微調資料集,StarCoder 從單純的程式碼補全工具升級為能進行多輪對話的 AI 助手。本篇介紹了其訓練細節、對話格式以及如何在 Hugging Face Spaces 上進行體驗。