Hugging Face BlogFeb 23, 2024, 12:00 AM重要 75
Introducing the Red-Teaming Resistance Leaderboard
Hugging Face 與 Haize Lab 合作推出「紅隊對抗排行榜」,評估 LLM 抵禦惡意越獄與對抗性攻擊的能力。
Hugging Face 聯合 AI 安全新創 Haize Lab 推出「Red-Teaming Resistance Leaderboard」(紅隊對抗排行榜)。該榜單旨在評估開源與商業大語言模型(LLM)在面對惡意越獄(Jailbreak)與對抗性攻擊時的防禦能力。透過自動化紅隊測試工具,量化模型在安全對齊上的真實強度,為開發者提供更具實戰價值的安全參考指標。
想看英文原文 / 完整內容?
前往 Hugging Face Blog 原文 →相關
摘要由 AI 整理,以原文為準。