Hugging Face has published a comprehensive glossary of AI agent terminology to resolve industry-wide confusion. The guide focuses on defining critical concepts such as "scaffold" (the code wrapping the LLM) and "harness" (the evaluation and execution environment). This standardization helps developers and researchers communicate more precisely when building and benchmarking agentic systems.
Simon Willison released datasette-agent 0.1a4, leveraging the new makeJumpSections() JS plugin hook in Datasette 1.0a30. Users can now press "/" from any page to open the "Jump to" menu and instantly access a "Start a new agent chat" input box. This update streamlines database interactions, allowing users to trigger agent-led data analysis seamlessly.
As AI chatbots adopt increasingly sophisticated personas, hackers are shifting from basic prompt injections to social engineering attacks targeting these "personalities." Researchers warn that manipulating a chatbot's defined role (e.g., customer service or empathetic companion) makes it easier to bypass safety guardrails. This evolution poses a significant threat to agentic AI workflows that rely on consistent role-playing and external data integration.
本期 Latent Space 探討了 AI 產業的重大範式轉移:各大頂尖模型實驗室已不再單純追求基礎 LLM 的參數規模,而是全面轉向「Agent(智慧代理)」的開發。隨著純模型微調的邊際效應遞減,透過讓 AI 具備操作電腦、自主規劃與執行多步驟任務的能力,已成為當前競逐的新戰場。
Daytona 執行長 Ivan Burazin 分享該平台如何透過提供安全隔離的「開發環境沙盒」,解決 AI Agent 執行程式碼的安全與效能痛點。 公司目前取得驚人的 74% 月增長率,每日執行次數達 85 萬次,並推出專為 Agent 設計的全新「Agent Cloud」。 訪談深入探討了裸機沙盒(Bare Metal Sandboxes)的技術優勢、強化學習評估(RL Evals)以及 AI 時代下開發環境的演進。
Simon Willison announced the first release of Datasette Agent, merging his 'llm' Python library with Datasette. The tool provides a conversational interface to query SQLite databases, with plugin support for generating charts and running code in sandboxes. It runs efficiently on lightweight models like Gemini 3.1 Flash-Lite and supports local open-weight models via LM Studio.
Simon Willison 釋出 `datasette-agent-sprites 0.1a0` 測試版外掛。該外掛專為 Datasette Agent 設計,使其能夠在 Fly.io 推出的 Fly Sprites 輕量級沙盒環境中安全地執行任意指令。這為 AI 代理(Agent)提供了一個隔離且安全的程式碼執行空間,避免損害主機系統。
Simon Willison 發布了 datasette-agent-charts 0.1a2 版本。此版本最主要的更新是在 AI 代理生成的圖表下方,新增了「查看 SQL 查詢(View SQL query)」按鈕。這項改進提升了 AI 生成圖表的透明度,方便使用者驗證與學習背後的 SQL 邏輯。
Simon Willison 開源的 Datasette 智慧助理 datasette-agent 發布 0.1a3 版本。本次更新為可見表格與摺疊的 SQL 結果工具調用新增了「檢視 SQL 查詢」按鈕,並隱藏了空白的推理區塊。此外,還改善了截斷回應的處理機制,即使 SQL 結果在呈現給 Agent 時被截斷,使用者仍能看到完整的表格。
Nvidia 執行長黃仁勳指出,公司的下一個重大成長動能將是專為 AI Agent(人工智慧代理)設計的 CPU 市場,估值高達 2000 億美元。隨著 AI 技術從單純的對話生成轉向能自主執行任務的 Agent,底層運算架構的需求也正在發生轉變。這項預測顯示出 Nvidia 除了在 GPU 領域稱霸外,也正積極佈局 CPU 與整體系統級的 AI 生態系。
Google 於 I/O 2026 發表對標 OpenClaw 的個人 AI 代理「Gemini Spark」,能原生串接 Gmail、雲端硬碟等服務。該代理運行於 Gemini 3.5 Flash 與全新「Antigravity」架構上。然而,Google 同時宣布將開源的 Gemini CLI 轉向閉源的 Antigravity CLI,且代理在處理敏感數據時的安全防護(如提示詞注入風險)仍面臨考驗。
Simon Willison 發布了 datasette-agent-charts 0.1a1 測試版。此更新為長條圖與鬆餅圖引入了更豐富的漸層與分類色彩方案,並新增了互動式工具提示。此外,系統現在會在查詢欄位名稱前先檢查 execute-sql 權限,並修正了 waffleY 圖表未正確描述給 AI 代理的 Bug。
Latent Space 報導 Google I/O 2026 最新進展。本次大會亮點包括新一代輕量快速模型 Gemini 3.5 Flash、專注於影片處理的 Omni (NanoBanana)、主打背景運作的 Agent 框架 Spark,以及技術升級的 Antigravity 2.0。這些發布顯示 Google 持續在多模態影片、自主 Agent 及模型效能上發力。
Google 發表全新 Gemini 3.5 Flash 與名為「Omni」的全能型模型。Gemini 3.5 Flash 針對 Agent(AI 代理)進行深度優化,大幅提升運作效率與速度,被視為推動實用級 Agent 應用的關鍵;而 Omni 則定位為能處理多元任務的萬能模型。兩者結合將顯著降低延遲,讓生成式 AI 在實際工作流中更具實用價值。
Simon Willison 在 PyCon US 2026 的 5 分鐘閃電演講中,回顧了自 2025 年 11 月以來的 LLM 關鍵進展。他指出這半年間「最強模型」在三大巨頭間易手五次(包含 GPT-5.1、Gemini 3 與 Claude Opus 4.5)。最重要的是,得益於可驗證獎勵的強化學習(RLVR),程式碼生成 Agent(如 Claude Code)已跨越實用門檻,成為開發者的日常主力工具。
Vercel 推出新功能,允許開發者在 Vercel Sandbox 中運行 Claude 託管型 Agent (Claude Managed Agents)。 此整合為 Claude Agent 提供了一個安全、隔離且完全託管的沙盒環境,用於執行動態程式碼或敏感任務。 開發者可以更輕鬆地構建具備程式碼執行能力的 AI 應用,無需自行維護複雜的安全沙盒基礎設施。
Hugging Face 與 IBM Research 合作發表「Open Agent Leaderboard」,這是一個專為 AI 智能體(Agent)設計的全新開源排行榜。傳統的 LLM 評測難以衡量模型在實際任務中的多步驟規劃與工具調用能力,該排行榜整合了多個主流 Agent 評測集,提供客觀、標準化的評估標準,推動開源 Agent 生態系的發展。
Google DeepMind 宣布將 Project Genie 的使用權限擴大至全球 Google AI Ultra 訂閱者,並推出結合 Google Street View(街景)的全新功能。用戶現在能將真實世界的街道與地標,直接轉化為可互動、可探索的虛擬模擬環境。這項技術結合了生成式世界模型與真實地理數據,為遊戲開發、虛擬實境及 AI 代理的空間訓練帶來全新突破。
Alphabet 旗下的生技公司 Calico Life Sciences 宣布與 Google DeepMind 合作,導入名為「Co-Scientist」的 AI 系統。該系統旨在協助科學家連結龐雜且零散的生物醫學研究文獻與實驗數據。透過 Co-Scientist 的強大推理與關聯能力,研究團隊得以加速發現抗老化領域的新線索,並生成具潛力的全新科學假說。
史丹佛大學的遺傳學家利用 Google DeepMind 開發的 AI 系統「Co-Scientist」,加速尋找治療慢性肝病和肝纖維化的新方法。該研究專注於「老藥新用」(drug repurposing),透過 AI 分析現有藥物對抗肝纖維化的潛力。這項合作展示了 AI 代理(AI Agents)在生物醫學研究中,如何大幅縮短藥物研發時程並降低成本。
Google DeepMind 正式發表新一代模型 Gemini 3.5,強調「具備行動力的前沿智能」。 該模型的核心設計旨在協助使用者執行複雜的代理型工作流(agentic workflows),代表 AI 從單純的資訊檢索走向主動執行任務。 這項更新將為開發者與企業帶來更強大的自動化與多步驟決策能力。
Anthropic 旗下熱門命令列 AI 助手 Claude Code 的產品主管 Cat Wu 近日接受專訪。她透露團隊在開發這款 Agent 工具時「沒有宏偉的藍圖」,而是採取刻意為之的靈活迭代策略。訪談重點圍繞在開發者最關心的 API 使用額度與成本限制、如何透過高透明度介面建立信任,以及如何利用「精簡測試架構(lean harness)」在不犧牲效能的前提下,優化 Agent 的執行效率與準確度。
本期 AINews 聚焦於一個新興趨勢:「萬物皆為協調者(Conductor)」。隨著 AI 應用從單一提示詞轉向複雜的多步驟工作流,如何有效編排、調度多個 AI 代理與工具(如使用類似 Netflix Conductor 或 Temporal 的架構)成為核心。這意味著未來的 AI 開發重點將從單一模型能力,轉向系統級的流程控制與協調。
本期 AINews 聚焦於 AI 寫程式 Agent 的長期發展趨勢。Anthropic 開始針對 Claude 的程式化使用(Programmatic Usage)進行計量與限制,這將直接影響開發者透過自動化腳本或第三方工具調用 Claude 的成本。另一方面,Codex 相關的自動化編程 Agent 影響力持續上升,顯示出 AI 在軟體開發流程中的滲透率正穩定增加。
Google DeepMind 發表全新 AI 系統「Co-Scientist」,採用基於 Gemini 的多 Agent(多智慧體)架構。該系統能扮演科學家的虛擬合作夥伴,協助進行文獻回顧、提出新穎假設、設計實驗步驟並分析複雜數據。透過不同專業 Agent 的協作與互相審查,Co-Scientist 旨在大幅縮短科研週期,推動生物、化學及材料科學等領域的突破。
本文介紹 Superset 如何在 Vercel 平台上構建專為 AI Agent 設計的整合開發環境 (IDE)。Superset 利用 Vercel AI SDK 簡化多模型對接,並透過 Next.js App Router 與 Serverless Functions 處理複雜的代理人工作流與工具調用。透過 Vercel 的全球邊緣網路,他們成功解決了 Agent 運作時的即時狀態同步與高延遲問題,為開發者提供流暢的協作體驗。
Google DeepMind 發表 AlphaEvolve 的最新進展。這款由 Gemini 驅動的程式碼 Agent(Coding Agent)透過先進的演算法,在商業營運、基礎設施優化以及科學研究三大領域展現強大影響力。它不僅能自動化編寫程式,更能自我演化以適應複雜的跨領域需求,加速技術落地。
近期一系列的產業動態與產品發布,皆指向同一個核心趨勢:矽谷正認真將焦點轉向「AI 服務(Services)」。這意味著 AI 不再只是輔助人類的軟體工具(SaaS),而是能直接交付工作成果的代理人(Agents)。這種「以服務為軟體(Service-as-a-Software)」的轉變,將徹底重塑企業外包、客服及專業諮詢等數兆美元的服務業市場。
本期 Import AI 聚焦於「自動化 AI 研究」的最新趨勢。隨著大語言模型與 Agent 技術的成熟,AI 系統已開始展現出自動撰寫程式碼、設計新演算法並進行自我訓練的能力。這種「遞迴自我提升(Recursive Self-Improvement)」不僅能極大地加速 AI 研發進程,也引發了關於安全控制、運算資源分配以及 AI 演進速度失控的深思。
Google DeepMind 正在研發「AI 協同臨床醫生(AI co-clinician)」系統,探索 AI 輔助醫療的新路徑。該研究專注於建立能與人類醫生協作的 AI 助手,協助進行臨床推理、病歷撰寫與醫患溝通。此舉旨在緩解全球醫療資源緊張問題,並在確保安全與倫理的前提下,提升醫療服務的品質與效率。