Hugging Face 介紹了 RiskRubric.ai 平台,旨在將 AI 安全評估民主化。該平台提供標準化的風險評估量表(Rubrics),幫助開發者與研究人員量化評估 AI 模型在偏見、毒性及隱私等維度的風險。透過開源與社群驅動的方式,它降低了中小型團隊進行 AI 安全測試與紅隊演練的門檻,並能與 Hugging Face 生態系無縫整合。
Google 與 Hugging Face 宣布將 SynthID Text 技術整合至 Transformers 庫中。這項技術能在不影響文本生成品質的前提下,於 LLM 輸出的機率分佈中嵌入隱形浮水印。開發者現在可以輕鬆在自己的模型中啟用此功能,以識別和追蹤 AI 生成的文本,應對虛假訊息與版權爭議。
Hugging Face 宣布與知名雲端安全廠商 Wiz Research 建立合作夥伴關係。雙方將共同致力於識別並修復 Hugging Face 平台上的安全漏洞,特別是針對模型託管、租戶隔離以及 Spaces 的容器安全。此合作旨在為開源 AI 社群建立更強大的安全防禦機制,防範惡意模型與潛在的雲端基礎設施攻擊。
Hugging Face 與 Lighthouz AI 合作推出「Chatbot Guardrails Arena」,這是一個專為評估大語言模型(LLM)安全防護網(Guardrails)而設計的開源社群平台。該平台旨在測試各大模型與防護系統在面對惡意提示、越獄攻擊及敏感話題時的防禦能力。透過標準化的基準測試,開發者可以直觀地比較不同防護方案的優劣,構建更安全可靠的 AI 應用。
Hugging Face 聯合 AI 安全新創 Haize Lab 推出「Red-Teaming Resistance Leaderboard」(紅隊對抗排行榜)。該榜單旨在評估開源與商業大語言模型(LLM)在面對惡意越獄(Jailbreak)與對抗性攻擊時的防禦能力。透過自動化紅隊測試工具,量化模型在安全對齊上的真實強度,為開發者提供更具實戰價值的安全參考指標。
Hugging Face 宣布更新其「內容指南與政策」,旨在為開源 AI 社群建立更安全、透明的環境。新政策明確禁止仇恨言論、惡意軟體、非自願性色情及旨在產生有害內容的模型。此外,官方也優化了社群檢舉流程與侵權(DMCA)處理機制,以確保平台上的模型與數據集符合安全合規標準。
本文介紹了大型語言模型(LLM)的「紅隊演練」概念,這是一種源自網路安全、旨在透過模擬對抗性攻擊來找出模型漏洞的方法。文章探討了紅隊演練在防範越獄(jailbreak)、有害輸出及隱私洩漏上的重要性,並分析了手動與自動化紅隊測試的實踐方式與挑戰。這對於開發安全、可靠的 AI 系統至關重要。
Hugging Face 介紹了 OpenRAIL(開放負責任 AI 授權)框架,旨在解決傳統開源授權無法約束 AI 濫用的問題。該框架允許用戶自由下載、修改和商業化 AI 模型,但同時在授權條款中加入「使用限制條款」,禁止將 AI 用於惡意用途(如生成深偽造、違法行為等)。這項舉措在促進技術共享與防範 AI 風險之間取得了平衡,成為 Stable Diffusion 等知名模型所採用的授權基礎。