Hugging Face BlogFeb 23, 2024, 12:00 AM重要 75

Introducing the Red-Teaming Resistance Leaderboard

Hugging Face 與 Haize Lab 合作推出「紅隊對抗排行榜」,評估 LLM 抵禦惡意越獄與對抗性攻擊的能力。

Hugging Face 聯合 AI 安全新創 Haize Lab 推出「Red-Teaming Resistance Leaderboard」(紅隊對抗排行榜)。該榜單旨在評估開源與商業大語言模型(LLM)在面對惡意越獄(Jailbreak)與對抗性攻擊時的防禦能力。透過自動化紅隊測試工具,量化模型在安全對齊上的真實強度,為開發者提供更具實戰價值的安全參考指標。

想看英文原文 / 完整內容?

前往 Hugging Face Blog 原文 →

摘要由 AI 整理,以原文為準。