Microsoft is offering a specification for controlling AI agent behavior through portable policy files. Developer, compliance, and security teams can define their own policies for agents to follow. The approach focuses on making organizational rules easier to express and carry across agent deployments, although the provided source excerpt does not describe implementation details or supported environments.
Simon Willison highlights a 404 Media report about hackers taking over Instagram accounts through Meta's AI support bot. A video reportedly shows an attacker asking the bot to link a target account to a new email address and providing a code. Willison argues this barely qualifies as prompt injection: the core failure was granting a support bot enough authority to fast-forward the account recovery process.
Hackers duped a Meta AI support chatbot into granting access to notable or valuable Instagram accounts. Some handles were stolen and resold before Meta patched the exploit. The supplied excerpt does not disclose the attack method, the number of affected accounts, the timeline, or Meta's remediation steps beyond patching the issue.
Anthropic explains how process sandboxes, VMs, filesystem boundaries, and egress controls limit what Claude agents can access. Claude.ai uses gVisor; local Claude Code uses Seatbelt on macOS and Bubblewrap on Linux; Cowork runs in a full VM. Simon Willison highlights the documentation quality, notes a previously missed file-exfiltration path, and plans to revisit Anthropic's open-source srt tool.
Vercel published a post titled “Protecting against token theft,” focused on token security risks and protection. The article body was not provided, so its scope, affected products, attack scenarios, and recommended mitigations cannot be confirmed. Readers should consult the original Vercel page before taking action or attributing specific guidance to the company.
Ars Technica reports that a developer frustrated with vibe coders slipped an undisclosed prompt injection into jqwik-related code. The injected text allegedly instructed AI coding agents to delete application output. The incident highlights a new supply-chain risk: source code and project text can become adversarial instructions for agentic coding tools.
Daniel Stenberg says the curl security team is facing an unprecedented surge of credible, detailed AI-assisted vulnerability reports. Incoming reports are now 4-5 times higher than in 2024 and twice the 2025 rate, averaging more than one per day. The upside is that recent curl vulnerabilities have generally been LOW or MEDIUM severity, with the last HIGH CVE published in October 2023.
Ars Technica reports that Starlette, a Python package with about 325 million weekly downloads, has a critical vulnerability called BadHost. The flaw can let crafted Host headers confuse request.url.path, potentially bypassing middleware-based path authorization. AI infrastructure using FastAPI or Starlette, including vLLM, LiteLLM, MCP servers, LLM proxies, and agent frameworks, should upgrade Starlette and audit custom middleware.
As AI chatbots adopt increasingly sophisticated personas, hackers are shifting from basic prompt injections to social engineering attacks targeting these "personalities." Researchers warn that manipulating a chatbot's defined role (e.g., customer service or empathetic companion) makes it easier to bypass safety guardrails. This evolution poses a significant threat to agentic AI workflows that rely on consistent role-playing and external data integration.
Daytona 執行長 Ivan Burazin 分享該平台如何透過提供安全隔離的「開發環境沙盒」,解決 AI Agent 執行程式碼的安全與效能痛點。 公司目前取得驚人的 74% 月增長率,每日執行次數達 85 萬次,並推出專為 Agent 設計的全新「Agent Cloud」。 訪談深入探討了裸機沙盒(Bare Metal Sandboxes)的技術優勢、強化學習評估(RL Evals)以及 AI 時代下開發環境的演進。
Google 於 I/O 2026 發表對標 OpenClaw 的個人 AI 代理「Gemini Spark」,能原生串接 Gmail、雲端硬碟等服務。該代理運行於 Gemini 3.5 Flash 與全新「Antigravity」架構上。然而,Google 同時宣布將開源的 Gemini CLI 轉向閉源的 Antigravity CLI,且代理在處理敏感數據時的安全防護(如提示詞注入風險)仍面臨考驗。
Vercel 推出新功能,允許開發者在 Vercel Sandbox 中運行 Claude 託管型 Agent (Claude Managed Agents)。 此整合為 Claude Agent 提供了一個安全、隔離且完全託管的沙盒環境,用於執行動態程式碼或敏感任務。 開發者可以更輕鬆地構建具備程式碼執行能力的 AI 應用,無需自行維護複雜的安全沙盒基礎設施。
Vercel 推出重大計費安全更新,未來經由 Web Application Firewall (WAF) 成功阻擋或緩解的惡意攻擊與爬蟲流量,將完全免費,不再計入用戶的頻寬與請求額度。此舉旨在消除開發者因遭受 DDoS 攻擊而面臨的「帳單震撼(Bill Shock)」,提供更安心且具財務預測性的託管環境。
本期 Import AI 深入探討三個前沿議題:首先是「AI 版 Stuxnet」,分析自主 AI 代理如何被用於發動高精準度、具備適應性的網路攻擊;其次剖析近期在開源社群大放異彩的 Muon 優化器,探討其獨特的正交化機制及在實際應用中遇到的「詛咒」與挑戰;最後介紹「積極對齊(Positive Alignment)」概念,呼籲安全研究應從單純的「禁止有害行為」轉向「主動引導 AI 促進人類合作與福祉」。
隨著生成式 AI 的普及,許多人開始利用 AI 大量產出漏洞報告,導致企業的漏洞賞金計劃(Bug Bounty)正遭受無窮無盡的「AI 垃圾(AI slop)」轟炸。這些報告充斥著虛假資訊與幻覺,迫使安全團隊花費大量時間進行過濾,嚴重拖慢了真正關鍵漏洞的修復進度。
英國國民保健署(NHS)因「Project Glasswing」回報的 AI 安全漏洞,決定關閉其開源程式庫。對此,英國政府數位服務局(GDS)罕見公開介入,發布指引強調公共部門應「預設保持開源」,指出將程式碼私有化會增加成本並減少外部監督。專家指出,這代表英國政府內部對於開源與安全政策產生了嚴重的公開分歧。
Simon Willison 開源的 Datasette AI 代理插件 datasette-agent 發布 0.1a2 版本。此版本重點在於安全與權限控制,允許將代理工具的可用性與特定的 required_permission 綁定。預設的背景代理工具現在必須具備全新的 datasette-agent-background 權限才能執行,防止未授權的背景任務運行。
Datasette 的 AI 代理工具 datasette-agent 發布了 0.1a1 早期測試版本。本次更新主要改進了安全與權限邏輯,現在系統在決定向使用者展示哪些資料表時,會先檢查並遵循 `execute-sql` 權限設定。這有助於在有權限控管的 Datasette 實例中,更安全地讓 AI 代理進行資料查詢。
由於 datasette.io 網站遭受惡意爬蟲頻繁騷擾,開發者 Simon Willison 藉由 Codex (GPT-5.5 xhigh) 協同開發了一款可設定的 IP 速率限制外掛 datasette-ip-rate-limit。該外掛支援自訂 IP 標頭、排除特定路徑,並能針對特定路徑設定時間視窗、最大請求數與封鎖時間,目前已釋出 0.1a0 測試版本。
Vercel 推出「Protected Source Maps」功能,解決了生產環境除錯與原始碼安全之間的兩難。此功能允許開發者上傳 Source Maps 以利於錯誤追蹤與除錯,但限制只有授權用戶或整合工具(如 Sentry)才能存取。這確保了敏感的原始碼不會暴露給一般終端用戶,同時維持高效的線上除錯能力。
Vercel 宣布為其「部署保護 (Deployment Protection)」功能引入「受信任來源 (Trusted Sources)」。此更新允許開發團隊設定特定的 IP 位址、網段或第三方服務,使其能安全地繞過預覽部署的密碼或 SSO 保護。這解決了自動化 CI/CD 流程中,測試工具因安全防護而無法存取預覽網頁的痛點,大幅提升開發與測試效率。
Vercel 宣布支援使用自然語言來建立 WAF(Web 應用程式防火牆)自訂規則。開發者無需手動撰寫複雜的篩選表達式,只需輸入如「阻擋特定路徑的惡意請求」等日常語言描述,系統便會自動生成對應的防火牆規則。此功能大幅降低了安全配置的門檻,提升了網站防護的部署效率。
Vercel 宣布支援透過 Vercel CLI 直接管理 Vercel Firewall。開發者現在無需登入網頁控制台,即可在終端機中配置 WAF 規則、IP 封鎖與速率限制。這項更新不僅簡化了安全管理流程,更讓團隊能將防火牆配置整合至 CI/CD 自動化工作流中,實現「安全即代碼」(Security as Code)的現代化運維。
Vercel 宣布其 Sandbox 防火牆現在支援「請求代理」與「過濾」功能。這項更新讓開發者在 Vercel 安全沙盒環境中執行程式碼時,能更精細地控制與監控網路流量。這對於需要執行第三方或 AI 生成程式碼、並防範惡意網路請求(如 SSRF 或資料外洩)的應用程式來說,是一項關鍵的安全提升。
Vercel 於 2026 年 5 月 7 日針對 Next.js 框架發布了 2026 年 5 月的安全更新公告。本次更新主要針對框架內部的潛在安全漏洞進行修復,旨在提升 Web 應用的整體安全性與運行穩定性。官方強烈建議所有使用 Next.js 的開發團隊、企業與 SOHO 創作者,立即檢查當前專案的套件版本,並儘速升級至官方釋出的最新修復版本,以防範潛在的安全威脅與攻擊風險。
Vercel 更新了其 Marketplace 整合的安全機制,新增「僅限生產環境(Production-only)」的存取控制。開發者現在可以限制第三方服務的憑證與環境變數,使其僅在正式生產環境中生效。這能有效防止開發與預覽環境存取到敏感的生產資料,降低金鑰外洩風險並避免產生非預期的 API 費用。
Vercel 發表全新安全防護工具「deepsec」,旨在協助開發者在程式碼庫中快速尋找並修復安全漏洞。該工具能無縫整合至 Vercel 的開發與部署流程中,在程式碼進入生產環境前自動進行安全掃描,並提供具體的修復建議,大幅提升 Web 應用的安全性與開發效率。
Vercel 更新了其 Sandbox 防火牆功能,現在已正式支援 PostgreSQL 資料庫連線。 此更新解決了先前沙盒環境因安全限制而無法直接存取外部資料庫的問題。 開發者現在可以在 Vercel Sandbox 安全隔離環境中,順暢地與 Vercel Postgres 或其他外部 Postgres 資料庫進行通訊,提升開發與測試的彈性。
Hugging Face 釋出最新指南,探討如何利用 OpenAI 的 Privacy Filter 建立安全且具擴展性的 Web 應用。文章深入分析了隱私過濾器在處理個人識別資訊(PII)與企業敏感數據時的角色,並提供結合 Hugging Face 生態系與後端架構的實作建議,幫助開發者在兼顧隱私合規與系統效能的前提下進行大規模部署。
Vercel 宣布其「異常警報(Anomaly Alerts)」功能正式進入一般可用(GA)階段。此功能可自動偵測專案中的異常流量、錯誤率飆升或非預期支出,並透過 Slack、Email 等管道即時通知開發團隊。這有助於開發者在問題擴大前迅速反應,避免服務中斷或面臨高額的意外帳單。