本期 Import AI 聚焦三大前沿議題:首先是中國研究將 AI 應用於電子戰與電磁對抗;其次是探討 LLM 在面對特定刺激或「創傷」數據時的行為與安全防禦;最後則是分析 AI 網路攻擊能力如何隨規模擴展,揭示了網路安全面臨的新型量化威脅。最後以哲學思考「無時間限制的心智如何衡量時間」收尾。
Google DeepMind 發表全新的 FACTS 基準測試套件,專門用於系統化評估大型語言模型(LLM)的真實性。該套件解決了現有評估方法不夠全面或難以標準化的痛點,透過多維度的測試集與自動化評估指標,幫助研究人員與開發者精確量化模型的「幻覺」程度。這對於提升 AI 在高風險領域(如醫療、法律、金融)的實用性與信任度具有重要意義。