Anthropic explains how process sandboxes, VMs, filesystem boundaries, and egress controls limit what Claude agents can access. Claude.ai uses gVisor; local Claude Code uses Seatbelt on macOS and Bubblewrap on Linux; Cowork runs in a full VM. Simon Willison highlights the documentation quality, notes a previously missed file-exfiltration path, and plans to revisit Anthropic's open-source srt tool.
Ars Technica reports that a developer frustrated with vibe coders slipped an undisclosed prompt injection into jqwik-related code. The injected text allegedly instructed AI coding agents to delete application output. The incident highlights a new supply-chain risk: source code and project text can become adversarial instructions for agentic coding tools.
Daniel Stenberg says the curl security team is facing an unprecedented surge of credible, detailed AI-assisted vulnerability reports. Incoming reports are now 4-5 times higher than in 2024 and twice the 2025 rate, averaging more than one per day. The upside is that recent curl vulnerabilities have generally been LOW or MEDIUM severity, with the last HIGH CVE published in October 2023.
Ars Technica reports that Starlette, a Python package with about 325 million weekly downloads, has a critical vulnerability called BadHost. The flaw can let crafted Host headers confuse request.url.path, potentially bypassing middleware-based path authorization. AI infrastructure using FastAPI or Starlette, including vLLM, LiteLLM, MCP servers, LLM proxies, and agent frameworks, should upgrade Starlette and audit custom middleware.
As AI chatbots adopt increasingly sophisticated personas, hackers are shifting from basic prompt injections to social engineering attacks targeting these "personalities." Researchers warn that manipulating a chatbot's defined role (e.g., customer service or empathetic companion) makes it easier to bypass safety guardrails. This evolution poses a significant threat to agentic AI workflows that rely on consistent role-playing and external data integration.
Daytona 執行長 Ivan Burazin 分享該平台如何透過提供安全隔離的「開發環境沙盒」,解決 AI Agent 執行程式碼的安全與效能痛點。 公司目前取得驚人的 74% 月增長率,每日執行次數達 85 萬次,並推出專為 Agent 設計的全新「Agent Cloud」。 訪談深入探討了裸機沙盒(Bare Metal Sandboxes)的技術優勢、強化學習評估(RL Evals)以及 AI 時代下開發環境的演進。
Google 於 I/O 2026 發表對標 OpenClaw 的個人 AI 代理「Gemini Spark」,能原生串接 Gmail、雲端硬碟等服務。該代理運行於 Gemini 3.5 Flash 與全新「Antigravity」架構上。然而,Google 同時宣布將開源的 Gemini CLI 轉向閉源的 Antigravity CLI,且代理在處理敏感數據時的安全防護(如提示詞注入風險)仍面臨考驗。
Vercel 推出新功能,允許開發者在 Vercel Sandbox 中運行 Claude 託管型 Agent (Claude Managed Agents)。 此整合為 Claude Agent 提供了一個安全、隔離且完全託管的沙盒環境,用於執行動態程式碼或敏感任務。 開發者可以更輕鬆地構建具備程式碼執行能力的 AI 應用,無需自行維護複雜的安全沙盒基礎設施。
本期 Import AI 深入探討三個前沿議題:首先是「AI 版 Stuxnet」,分析自主 AI 代理如何被用於發動高精準度、具備適應性的網路攻擊;其次剖析近期在開源社群大放異彩的 Muon 優化器,探討其獨特的正交化機制及在實際應用中遇到的「詛咒」與挑戰;最後介紹「積極對齊(Positive Alignment)」概念,呼籲安全研究應從單純的「禁止有害行為」轉向「主動引導 AI 促進人類合作與福祉」。
隨著生成式 AI 的普及,許多人開始利用 AI 大量產出漏洞報告,導致企業的漏洞賞金計劃(Bug Bounty)正遭受無窮無盡的「AI 垃圾(AI slop)」轟炸。這些報告充斥著虛假資訊與幻覺,迫使安全團隊花費大量時間進行過濾,嚴重拖慢了真正關鍵漏洞的修復進度。
英國國民保健署(NHS)因「Project Glasswing」回報的 AI 安全漏洞,決定關閉其開源程式庫。對此,英國政府數位服務局(GDS)罕見公開介入,發布指引強調公共部門應「預設保持開源」,指出將程式碼私有化會增加成本並減少外部監督。專家指出,這代表英國政府內部對於開源與安全政策產生了嚴重的公開分歧。
Datasette 的 AI 代理工具 datasette-agent 發布了 0.1a1 早期測試版本。本次更新主要改進了安全與權限邏輯,現在系統在決定向使用者展示哪些資料表時,會先檢查並遵循 `execute-sql` 權限設定。這有助於在有權限控管的 Datasette 實例中,更安全地讓 AI 代理進行資料查詢。
Hugging Face 釋出最新指南,探討如何利用 OpenAI 的 Privacy Filter 建立安全且具擴展性的 Web 應用。文章深入分析了隱私過濾器在處理個人識別資訊(PII)與企業敏感數據時的角色,並提供結合 Hugging Face 生態系與後端架構的實作建議,幫助開發者在兼顧隱私合規與系統效能的前提下進行大規模部署。
Hugging Face 宣布其開發的安全且高效的模型權重儲存格式 Safetensors 正式加入 PyTorch 基金會。此舉旨在提升該格式的社群治理與中立性,並進一步鞏固其作為機器學習生態系中安全儲存張量的業界標準。未來雙方將共同推動更安全、更快速的模型載入技術。
Vercel 針對日益普及的 AI Agent 開發提出「Agent responsibly」倡議。文章聚焦於開發者在部署 Agent 時面臨的挑戰,包括無限循環、高昂成本、安全漏洞(如提示詞注入)以及用戶隱私問題。Vercel 結合其 AI SDK 與平台特性,提供了防護欄(Guardrails)、速率限制、可觀測性等實用解決方案,幫助開發者構建既強大又安全的 Agent 應用。
本文介紹 Notion 全新推出的 Notion Workers 如何解決安全執行第三方程式碼的挑戰。透過採用 Vercel Sandbox 技術,Notion 能夠在極低延遲下,將用戶編寫的程式碼隔離在安全的微型虛擬化環境(Micro-VM)中執行。這項合作不僅確保了多租戶環境的安全隔離,也實現了高彈性的水平擴展能力,為 SaaS 平台安全開放客製化功能樹立了新標竿。
隨著 AI Agent(代理)逐漸具備自主執行工具與呼叫 API 的能力,傳統的安全防護已不敷使用。Vercel 提出在代理式架構中建立「安全邊界」的關鍵指引,強調必須實施執行期沙盒化(Sandboxing)、嚴格的最小權限原則(Least Privilege),以及在關鍵決策中引入「人工確認(Human-in-the-loop)」機制,以防止提示詞注入與越權操作。
Vercel 官方宣布推出「Vercel OSS 漏洞賞金計畫」,鼓勵全球安全研究人員與開發者協助找出其開源專案(如 Next.js、Turborepo 等)的安全漏洞。該計畫將依漏洞嚴重性提供獎金,旨在強化開源生態系的供應鏈安全,保障數百萬使用其技術的網站。
在本期 Import AI 中,Jack Clark 探討了 AI Agent 的實用化轉折點,分享他如何將 Agent 融入日常工作流,指出 Agent 已從「玩具」走向「實用工具」。此外,本期也介紹了一項安全研究「毒泉(Poison Fountain)」,展示了攻擊者如何透過持續注入惡意數據,污染 AI 系統的長期記憶與檢索機制,對當前日益普及的 Agent 安全性敲響警鐘。
Vercel 推出高達 100 萬美元的「React2Shell」黑客挑戰賽。該活動旨在測試其沙箱環境的安全性,挑戰者若能成功從 React 執行環境突破限制並取得底層 Shell 控制權(即 RCE 遠端代碼執行),即可獲得巨額賞金。這展現了 Vercel 對其託管與 AI 生成代碼預覽環境安全性的極高信心。
知名開源 AI 研究團隊 Nous Research 在託管其模型展示與 API 時,面臨嚴重的自動化機器人(Bot)濫用問題。 透過導入 Vercel 的 BotID 安全防護功能,他們得以在邊緣端(Edge)精準識別並攔截惡意流量。 這項解決方案不僅保護了昂貴的 GPU 運算資源免於被榨乾,也確保了真實用戶能享有流暢且無感(免驗證碼)的 AI 體驗。
Google DeepMind 發表全新 AI Agent「CodeMender」,旨在解決軟體安全中的關鍵漏洞修復難題。CodeMender 不僅能自動偵測程式碼中的安全漏洞,還能主動生成修復補丁並進行驗證。這項技術結合了先進的大型語言模型與自動化測試,大幅提升了軟體開發生命週期中的安全性與修復效率。
Google DeepMind 發表了 VaultGemma,這是全球首款從頭開始(from scratch)使用差分隱私(Differential Privacy, DP)技術訓練的高性能大語言模型。透過嚴格的數學隱私保證,VaultGemma 能有效防止訓練數據洩露與敏感資訊記憶,同時在多項基準測試中保持極高的實用性,為醫療、金融等高隱私需求領域帶來全新突破。
Hugging Face 正式推出 OpenEnv 計劃,旨在解決 AI Agent 在執行任務時面臨的環境不一致與安全隱憂。OpenEnv 提供了一個標準化、安全隔離的沙盒環境,讓 Agent 能安全地執行程式碼、操作檔案與進行網頁互動。此舉將促進開源社群在 Agent 評估與部署上的協作,共同打造更安全且一致的開放 Agent 生態系統。
Hugging Face 與知名安全平台 VirusTotal 展開合作,旨在提升開源 AI 生態系的安全性。雙方將針對託管在 Hugging Face 上的模型進行深度安全掃描,特別是防範利用 PyTorch pickle 格式等漏洞傳播的惡意代碼。此舉將幫助開發者更安全地下載與部署開源模型,降低供應鏈攻擊風險。
隨著 AI Agent 從單純對話走向自主執行任務,安全挑戰日益嚴峻。Vercel 釋出指南,探討如何透過安全沙盒(如 E2B)隔離程式碼執行、利用 IAM 限制 Agent 權限、防範提示詞注入,以及在關鍵步驟引入「人工確認(Human-in-the-Loop)」機制,幫助開發者在 Vercel 平台上構建兼具功能與安全性的 AI 應用。
Hugging Face 與軟體供應鏈安全領導廠商 JFrog 展開戰略合作。雙方將整合 Hugging Face 的開源模型生態系與 JFrog 的安全平台,讓企業在引進 AI 模型時能進行自動化漏洞掃描與惡意代碼檢測。此舉旨在解決 AI 供應鏈中的安全隱憂,讓 AI 開發流程更加透明且符合企業合規要求。
Hugging Face 宣布與 AI 安全領導廠商 Protect AI 展開合作,旨在提升開源機器學習(ML)社群的模型安全性。雙方將共同應對日益嚴重的開源模型安全威脅,如惡意代碼注入與反序列化漏洞。透過整合先進的安全掃描技術,此合作將幫助開發者在 Hugging Face Hub 上更安全地分享與下載模型,降低供應鏈安全風險。
Hugging Face 委託專業安全公司 Trail of Bits 對 Gradio 5 進行全面安全性審計。本次更新修復了包括任意檔案讀取(LFI)與伺服器端請求偽造(SSRF)等潛在漏洞,並重新設計了檔案存取架構。新版本採取「預設安全」策略,大幅降低開發者在部署 AI 互動介面時面臨的安全風險。
Hugging Face 推出 Gradio 5 重大更新,全面提升效能與安全性。此版本經過專業安全團隊 Trail of Bits 審計,預設啟用多項安全防護;同時引入伺服器端渲染(SSR),大幅縮短首頁載入時間並提升 SEO。此外,新版也優化了多模態 Chatbot 組件,讓開發者能更輕鬆地打造生產級的 AI 互動介面。