ZeroDrift raised $10 million for an AI compliance service. The service sits between AI models and end users, checking messages before delivery. When an output might create a compliance problem, the system flags and replaces it, adding an intermediary control layer for AI applications.
ServiceNow AI 在 Hugging Face 上發布了 AprielGuard,這是一個專注於安全與對抗防禦的 LLM 防護欄系統。它旨在幫助開發者過濾有害輸入、防止提示詞注入與越獄攻擊。此工具為現代 LLM 應用提供了一層關鍵的安全防禦機制,確保企業級 AI 部署的合規與安全。
Vercel 宣布其 AI Gateway 已正式支援 OpenAI 推出的 GPT-OSS-Safeguard-20B 模型。這款擁有 200 億參數的安全防護模型,旨在幫助開發者在 Gateway 端直接進行輸入與輸出的安全過濾。透過此整合,開發者能更輕鬆地為 AI 應用部署強大的安全護欄(Guardrails),有效防止惡意提示詞攻擊並過濾不當內容。
Meta 推出開源安全評估框架 CyberSecEval 2,並與 Hugging Face 合作推廣。該框架旨在量化大語言模型(LLM)在網路安全領域的雙重用途風險,新增了自動化漏洞利用、惡意軟體分析及提示詞注入(Prompt Injection)等測試維度。這項工具能幫助開發者與安全研究人員,客觀評估如 Llama Guard 等安全防護模型在實際對抗中的防禦表現。
Hugging Face 與 Lighthouz AI 合作推出「Chatbot Guardrails Arena」,這是一個專為評估大語言模型(LLM)安全防護網(Guardrails)而設計的開源社群平台。該平台旨在測試各大模型與防護系統在面對惡意提示、越獄攻擊及敏感話題時的防禦能力。透過標準化的基準測試,開發者可以直觀地比較不同防護方案的優劣,構建更安全可靠的 AI 應用。