Anthropic explains how process sandboxes, VMs, filesystem boundaries, and egress controls limit what Claude agents can access. Claude.ai uses gVisor; local Claude Code uses Seatbelt on macOS and Bubblewrap on Linux; Cowork runs in a full VM. Simon Willison highlights the documentation quality, notes a previously missed file-exfiltration path, and plans to revisit Anthropic's open-source srt tool.
As AI chatbots adopt increasingly sophisticated personas, hackers are shifting from basic prompt injections to social engineering attacks targeting these "personalities." Researchers warn that manipulating a chatbot's defined role (e.g., customer service or empathetic companion) makes it easier to bypass safety guardrails. This evolution poses a significant threat to agentic AI workflows that rely on consistent role-playing and external data integration.
Vercel 推出新功能,允許開發者在 Vercel Sandbox 中運行 Claude 託管型 Agent (Claude Managed Agents)。 此整合為 Claude Agent 提供了一個安全、隔離且完全託管的沙盒環境,用於執行動態程式碼或敏感任務。 開發者可以更輕鬆地構建具備程式碼執行能力的 AI 應用,無需自行維護複雜的安全沙盒基礎設施。
Vercel 針對日益普及的 AI Agent 開發提出「Agent responsibly」倡議。文章聚焦於開發者在部署 Agent 時面臨的挑戰,包括無限循環、高昂成本、安全漏洞(如提示詞注入)以及用戶隱私問題。Vercel 結合其 AI SDK 與平台特性,提供了防護欄(Guardrails)、速率限制、可觀測性等實用解決方案,幫助開發者構建既強大又安全的 Agent 應用。
在本期 Import AI 中,Jack Clark 探討了 AI Agent 的實用化轉折點,分享他如何將 Agent 融入日常工作流,指出 Agent 已從「玩具」走向「實用工具」。此外,本期也介紹了一項安全研究「毒泉(Poison Fountain)」,展示了攻擊者如何透過持續注入惡意數據,污染 AI 系統的長期記憶與檢索機制,對當前日益普及的 Agent 安全性敲響警鐘。