本期 Import AI 聚焦三大前沿議題:首先是中國研究將 AI 應用於電子戰與電磁對抗;其次是探討 LLM 在面對特定刺激或「創傷」數據時的行為與安全防禦;最後則是分析 AI 網路攻擊能力如何隨規模擴展,揭示了網路安全面臨的新型量化威脅。最後以哲學思考「無時間限制的心智如何衡量時間」收尾。
Google DeepMind 發表全新的 FACTS 基準測試套件,專門用於系統化評估大型語言模型(LLM)的真實性。該套件解決了現有評估方法不夠全面或難以標準化的痛點,透過多維度的測試集與自動化評估指標,幫助研究人員與開發者精確量化模型的「幻覺」程度。這對於提升 AI 在高風險領域(如醫療、法律、金融)的實用性與信任度具有重要意義。
Meta 推出開源安全評估框架 CyberSecEval 2,並與 Hugging Face 合作推廣。該框架旨在量化大語言模型(LLM)在網路安全領域的雙重用途風險,新增了自動化漏洞利用、惡意軟體分析及提示詞注入(Prompt Injection)等測試維度。這項工具能幫助開發者與安全研究人員,客觀評估如 Llama Guard 等安全防護模型在實際對抗中的防禦表現。
Hugging Face 推出 evaluate 函式庫,旨在簡化機器學習模型的評估流程。本文重點介紹如何利用該工具評估語言模型中的偏見與毒性,包含使用 regard、toxicity 等評估指標。透過標準化的評估流程,開發者能更輕易地量化模型在性別、種族等維度上的潛在社會偏見,從而打造更安全、公平的 AI 應用。