Google 在 I/O 大會上正式推出 Gemini 3.5 Flash,跳過預覽版直接進入一般可用階段,並將全面導入 Google 搜尋、Gemini App 及開發者平台。然而,新模型的 API 價格大幅上漲,輸入與輸出費用分別為每百萬代幣 1.5 美元與 9 美元,是前代 Flash 預覽版的 3 倍,顯示出各大 AI 廠商正開始測試市場對高定價的接受度。
Datasette 的 LLM 記帳插件 `datasette-llm-accountant` 發布了 0.1a4 測試版本。本次更新主要修正了一個在追蹤 LLM 連續回應鏈(chains of responses)時發生的 Bug,該問題與 `datasette-llm` 的 issue #7 相關。此插件旨在協助開發者記錄與管理 LLM 的使用量與成本。
Simon Willison 發表了其 CLI 工具外掛 llm-gemini 的 0.32a0 測試版本。此版本主要相容於 llm>=0.32a0 alpha,並新增了串流輸出「思考 Token」(reasoning tokens)的功能。這讓開發者在使用 Gemini 具備推理能力的模型時,能即時在終端機看到模型的思考過程。
Simon Willison 開源的 Datasette 插件 datasette-llm 發布了 0.1a8 預覽版本。此版本主要修復了一個關鍵 Bug,解決了 llm_prompt_context() 鉤子(hook)在運作時,無法完整收集並串聯對話回應鏈(chains of responses)的問題。這對於依賴該插件進行複雜 LLM 數據檢索與上下文構建的開發者來說是個必要的更新。
艾倫人工智慧研究所(AI2)推出 OlmoEarth v1.1,這是一系列專為地球觀測與衛星影像分析設計的全新高效模型。此版本在維持高精度的同時,顯著提升了運算效率與推理速度。OlmoEarth v1.1 的開源將有助於環境監測、氣候變遷研究及地理空間數據分析的普及與應用。
Google 開發的 AI 水印技術 SynthID 迎來重大突破,宣布獲得 OpenAI、NVIDIA 等多家科技巨頭採用。隨著 AI 生成的文字、影像與影音擬真度大幅提升,如何辨識真偽成為關鍵挑戰。此舉標誌著各大 AI 領導廠商在內容溯源與安全防護上達成罕見共識,有望建立統一的 AI 生成內容識別標準。
Google 發表全新 Gemini 3.5 Flash 與名為「Omni」的全能型模型。Gemini 3.5 Flash 針對 Agent(AI 代理)進行深度優化,大幅提升運作效率與速度,被視為推動實用級 Agent 應用的關鍵;而 Omni 則定位為能處理多元任務的萬能模型。兩者結合將顯著降低延遲,讓生成式 AI 在實際工作流中更具實用價值。
Vercel 更新其 Nuxt MCP Toolkit,新增對 MCP (Model Context Protocol) 應用程式的支援。這項更新讓開發者能更輕鬆地將 Nuxt 專案轉化為可供 AI 代理(如 Claude)直接讀取與互動的 MCP 服務,大幅降低了在 Vue/Nuxt 生態系中建構 AI 驅動應用的門檻。
在 Google I/O 大會前夕的空檔,Latent Space 特別推薦了一篇備受關注的部落格文章。該文深入探討求職者如何準備並進入頂尖 AI 實驗室(如 OpenAI、Anthropic 等)從事核心的「預訓練(Pretraining)」工作。內容涵蓋預訓練工程師所需的關鍵技能、知識儲備與面試準備方向,是志在投身前沿 AI 研發者的必讀指南。
Vercel 宣布其 AI Gateway 服務已正式支援 Google 的 Gemini 3.5 Flash 模型。 開發者現在可以透過 Vercel 的統一接口,輕鬆調用此高效能、低延遲的輕量級模型。 此更新將為 Gemini 3.5 Flash 的調用帶來邊緣快取、速率限制與即時分析等功能,大幅優化 AI 應用的開發與營運體驗。
Simon Willison 在 PyCon US 2026 的 5 分鐘閃電演講中,回顧了自 2025 年 11 月以來的 LLM 關鍵進展。他指出這半年間「最強模型」在三大巨頭間易手五次(包含 GPT-5.1、Gemini 3 與 Claude Opus 4.5)。最重要的是,得益於可驗證獎勵的強化學習(RLVR),程式碼生成 Agent(如 Claude Code)已跨越實用門檻,成為開發者的日常主力工具。
Hugging Face 推出全新「Ettin Reranker」重排模型家族,旨在解決 RAG 系統中檢索精度不足的痛點。該系列模型涵蓋多種參數大小,支援多語言與長文本處理,並與 Hugging Face 生態系深度整合。Ettin 透過創新的架構設計,在保持低延遲的同時,顯著提升了重排(Reranking)階段的 NDCG 指標,是開發者構建高效能 RAG 應用的全新開源選擇。
Vercel 宣布推出「固定費率 CDN」(Flat Rate CDN)的限量測試。這項新服務旨在解決開發者長期以來對 CDN 流量計費不確定性的擔憂。透過固定的費率結構,用戶可以更輕鬆地預測每月基礎設施成本,避免因網站流量突增或惡意攻擊而面臨天價帳單,為託管於 Vercel 的專案提供更高的財務安全感。
Vercel 推出新功能,允許開發者在 Vercel Sandbox 中運行 Claude 託管型 Agent (Claude Managed Agents)。 此整合為 Claude Agent 提供了一個安全、隔離且完全託管的沙盒環境,用於執行動態程式碼或敏感任務。 開發者可以更輕鬆地構建具備程式碼執行能力的 AI 應用,無需自行維護複雜的安全沙盒基礎設施。
Vercel 宣布為 GitHub 用戶推出「合併提交狀態」(Consolidated Commit Status)功能。以往 Vercel 的預覽部署、生產部署及各項效能檢查會在 GitHub PR 頁面產生多個獨立狀態,導致介面雜亂。新功能將這些狀態整合為單一或更精簡的條目,幫助開發者更清晰地掌握部署進度,提升程式碼審查效率。
Vercel 推出重大計費安全更新,未來經由 Web Application Firewall (WAF) 成功阻擋或緩解的惡意攻擊與爬蟲流量,將完全免費,不再計入用戶的頻寬與請求額度。此舉旨在消除開發者因遭受 DDoS 攻擊而面臨的「帳單震撼(Bill Shock)」,提供更安心且具財務預測性的託管環境。
Google DeepMind 宣布生物學家成功利用其 AI 系統「Co-Scientist」加速基因篩選流程。該系統協助研究人員在龐大的基因數據中,精準辨識出能有效逆轉人類細胞衰老(細胞年輕化)的全新關鍵遺傳因子。這項突破不僅展示了 AI 在生醫領域的強大預測與實驗設計能力,也為抗衰老療法與再生醫學開闢了全新路徑。
Elon Musk 指控 Sam Altman 與 OpenAI「竊取慈善機構」的訴訟迎來重大判決。陪審團一致認為 Musk 拖延了太長時間才提起訴訟,法官隨即確認了這項裁決,宣告 Musk 敗訴。對此,Musk 的法律團隊已表示計劃提出上訴。
知名開源 OCR 工具 PaddleOCR 3.5 正式整合至 Hugging Face Transformers 生態系。開發者現在可以直接使用 PyTorch/Transformers 後端執行文字偵測、識別及表格解析等任務,無需安裝複雜的 PaddlePaddle 框架。這項更新極大地簡化了 OCR 與 RAG(檢索增強生成)等下游任務的整合流程。
知名開發者 Simon Willison 在參加完 PyCon US 年會後,於啟程回家前的最後一個早晨前往加州洛杉磯河畔散步。他成功觀測並拍攝到了他一直想尋找的褐鵜鶘,同時也記錄了灰翅鷗、雪鷺以及在天鵝船湖畔活動的加拿大雁幼雛。此篇為其個人的自然觀測記錄。
Hugging Face 與 IBM Research 合作發表「Open Agent Leaderboard」,這是一個專為 AI 智能體(Agent)設計的全新開源排行榜。傳統的 LLM 評測難以衡量模型在實際任務中的多步驟規劃與工具調用能力,該排行榜整合了多個主流 Agent 評測集,提供客觀、標準化的評估標準,推動開源 Agent 生態系的發展。
本期 Latent Space 訪談了烏克蘭無人機新創 The Fourth Law 創辦人 Yaroslav Azhnyuk 與客座主持人 Noah Smith。他們深入探討了從寵物攝影機轉向 AI 導引武器的技術歷程,解析了現代自主無人機的技術棧與低成本製造經濟學。Azhnyuk 警告,西方國家在面對這場由 AI 驅動的無人機軍備競賽中顯得過於遲鈍,亟需正視其對未來國防的衝擊。
本期 Import AI 深入探討三個前沿議題:首先是「AI 版 Stuxnet」,分析自主 AI 代理如何被用於發動高精準度、具備適應性的網路攻擊;其次剖析近期在開源社群大放異彩的 Muon 優化器,探討其獨特的正交化機制及在實際應用中遇到的「詛咒」與挑戰;最後介紹「積極對齊(Positive Alignment)」概念,呼籲安全研究應從單純的「禁止有害行為」轉向「主動引導 AI 促進人類合作與福祉」。
隨著生成式 AI 的普及,許多人開始利用 AI 大量產出漏洞報告,導致企業的漏洞賞金計劃(Bug Bounty)正遭受無窮無盡的「AI 垃圾(AI slop)」轟炸。這些報告充斥著虛假資訊與幻覺,迫使安全團隊花費大量時間進行過濾,嚴重拖慢了真正關鍵漏洞的修復進度。
Google DeepMind 宣布將 Project Genie 的使用權限擴大至全球 Google AI Ultra 訂閱者,並推出結合 Google Street View(街景)的全新功能。用戶現在能將真實世界的街道與地標,直接轉化為可互動、可探索的虛擬模擬環境。這項技術結合了生成式世界模型與真實地理數據,為遊戲開發、虛擬實境及 AI 代理的空間訓練帶來全新突破。
Google DeepMind 發表新一代「Gemini Omni」模型,採用原生端到端全模態架構,能同時處理並輸出文字、音訊與視覺資訊。該模型顯著降低了互動延遲,實現如同真人般的流暢對話與即時視訊引導,未來將深度整合至 Android 系統與 Google 生態系,並透過 API 開放給開發者。
英國國民保健署(NHS)因「Project Glasswing」回報的 AI 安全漏洞,決定關閉其開源程式庫。對此,英國政府數位服務局(GDS)罕見公開介入,發布指引強調公共部門應「預設保持開源」,指出將程式碼私有化會增加成本並減少外部監督。專家指出,這代表英國政府內部對於開源與安全政策產生了嚴重的公開分歧。
Google DeepMind 宣布推出「Gemini for Science」計畫,整合了一系列專為科學研究設計的 AI 工具與實驗。該計畫旨在利用 Gemini 的多模態與推理能力,協助科學家擴大研究規模並提升探索的精準度。這標誌著 AI 從通用助手邁向深度的科學發現夥伴,為材料科學、生物醫學等領域帶來新的可能性。
Google DeepMind 宣布擴大其內容識別工具,協助使用者了解網頁內容的建立與編輯過程。此舉包含在 Google 搜尋與廣告中整合 C2PA(內容來源和真實性聯盟)元數據,讓使用者能透過「關於此圖片」功能查看圖片是否由 AI 生成或經過編輯。同時,Google 也持續推廣其 SynthID 數位浮水印技術,以提升數位內容的透明度與可信度。
知名開發者 Simon Willison 為了在 PyCon US 的閃電講做準備,利用自製的 Git 歷史分析工具,整理了開源專案 OpenClaw 自 2025 年 11 月首個 Commit 以來的命名演變。該專案最初名為 Warelay(WhatsApp 轉接工具),歷經 CLAWDIS、CLAWDBOT、Moltbot,最終定名為 OpenClaw,定位也從通訊閘道器轉變為個人 AI 助理。