Google DeepMind 宣布加強與英國 AI 安全研究所(UK AISI)的合作關係。雙方將針對前沿 AI 模型的安全評估、風險緩解及安全研究展開更緊密的協作。此舉旨在建立更完善的 AI 安全標準,確保未來強大 AI 系統的開發與部署符合安全規範。
Hugging Face 介紹了 RiskRubric.ai 平台,旨在將 AI 安全評估民主化。該平台提供標準化的風險評估量表(Rubrics),幫助開發者與研究人員量化評估 AI 模型在偏見、毒性及隱私等維度的風險。透過開源與社群驅動的方式,它降低了中小型團隊進行 AI 安全測試與紅隊演練的門檻,並能與 Hugging Face 生態系無縫整合。
Hugging Face 聯合 AI 安全新創 Haize Lab 推出「Red-Teaming Resistance Leaderboard」(紅隊對抗排行榜)。該榜單旨在評估開源與商業大語言模型(LLM)在面對惡意越獄(Jailbreak)與對抗性攻擊時的防禦能力。透過自動化紅隊測試工具,量化模型在安全對齊上的真實強度,為開發者提供更具實戰價值的安全參考指標。
本文介紹了大型語言模型(LLM)的「紅隊演練」概念,這是一種源自網路安全、旨在透過模擬對抗性攻擊來找出模型漏洞的方法。文章探討了紅隊演練在防範越獄(jailbreak)、有害輸出及隱私洩漏上的重要性,並分析了手動與自動化紅隊測試的實踐方式與挑戰。這對於開發安全、可靠的 AI 系統至關重要。