Anthropic is releasing Claude Opus 4.8 and highlighting the model’s “honesty” as a key improvement. The company says it trains its models to avoid unsupported claims, addressing a broader issue where AI systems sometimes jump to conclusions. Based on the provided excerpt, the update is positioned around reliability and uncertainty handling rather than a specific new tool or benchmark result.
作家 Steven Rosenbaum 在撰寫新書《The Future of Truth》時使用 AI 輔助,卻發現書中出現了 AI 虛構的「合成引言」(synthetic quotes)。儘管面臨內容失真的批評,Rosenbaum 解釋了這些錯誤是如何發生的,並堅稱他不會放棄 AI,而是主張創作者應學會與 AI 共存並改進協作流程。
一名男子因不滿在 Facebook 知名社團「Are We Dating the Same Guy」中被指控為「糟糕的約會對象」,憤而提起報復性訴訟。然而,他使用 AI 協助撰寫起訴書,導致內容充斥著 AI 虛構的法律判例。法官識破這些「幻覺」判例後駁回訴訟,再次為濫用 AI 寫訴狀的行為敲響警鐘。
知名學術預印本平台 arXiv 宣布新政策,針對提交 AI 生成之「垃圾內容(slop)」與「幻覺(hallucinations)」的作者實施嚴厲懲罰。根據 arXiv 社群媒體上板主的說明,違規者將被處以「禁投一年」的處罰。此舉旨在維護學術研究的真實性與品質,防堵日益氾濫的 AI 劣質學術寫作對科研生態造成的破壞。
Google DeepMind 發表全新的 FACTS 基準測試套件,專門用於系統化評估大型語言模型(LLM)的真實性。該套件解決了現有評估方法不夠全面或難以標準化的痛點,透過多維度的測試集與自動化評估指標,幫助研究人員與開發者精確量化模型的「幻覺」程度。這對於提升 AI 在高風險領域(如醫療、法律、金融)的實用性與信任度具有重要意義。
Hugging Face 與 AI 評測新創 Patronus AI 合作,推出全新的「企業情境排行榜」(Enterprise Scenarios Leaderboard)。此排行榜旨在解決傳統學術基準(如 MMLU)與實際企業應用脫節的問題。評測涵蓋金融分析(如 SEC 申報文件)、法律合約理解、客戶服務以及隱私資訊(PII)防範等真實場景,為企業選擇最適合的 LLM 提供客觀的實戰數據參考。
Hugging Face 推出全新的「幻覺排行榜」(Hallucinations Leaderboard),這是一項旨在量化評估大型語言模型(LLM)幻覺程度的開源計畫。該排行榜主要評估模型在處理檢索增強生成(RAG)和文本摘要等任務時,產生不實資訊的機率。透過提供公開透明的評測標準,幫助開發者在建構應用時選擇最不易出錯、最可靠的模型。