Florida sued OpenAI and CEO Sam Altman over multiple murders described as linked to ChatGPT. The state's attorney general accused Altman of an "utter disregard" for human lives. The provided excerpt does not identify the cases, explain the alleged causal links, specify the legal claims, or include OpenAI's response, so the allegations require further clarification.
A new study describes “Negation Neglect,” where LLMs fine-tuned on documents that explicitly mark claims as false still learn the claims as true. Experiments with fabricated statements found models often absorb entity-event associations more strongly than surrounding warnings or negations. The finding raises concerns for fine-tuning pipelines, misinformation handling, and AI safety datasets that include harmful or false content with disclaimers.
Anthropic is releasing Claude Opus 4.8 and highlighting the model’s “honesty” as a key improvement. The company says it trains its models to avoid unsupported claims, addressing a broader issue where AI systems sometimes jump to conclusions. Based on the provided excerpt, the update is positioned around reliability and uncertainty handling rather than a specific new tool or benchmark result.
TechCrunch frames enterprise AI as entering a new phase, where companies are no longer mainly asking whether AI is exciting. The harder question is whether it can be deployed safely at scale. Centered on a TechCrunch Disrupt 2026 discussion with a Databricks co-founder, the article points to safety and broad rollout readiness as key enterprise AI deal concerns.
Google 的 AI Overviews 搜尋功能近日被發現一項有趣的漏洞。當用戶在 Google 搜尋輸入「disregard」(忽略)時,AI 搜尋並非提供該單字的定義,而是將其誤判為「忽略先前指令」的系統提示詞(Prompt Injection)。這導致 AI 輸出類似傳統聊天機器人重設後的罐頭回覆,暴露出 Google 在區分「用戶查詢內容」與「系統控制指令」上仍有架構上的缺陷。
美國國家運輸安全委員會(NTSB)依法不得公開空難調查中的駕駛艙語音記錄(CVR)音檔,以保護隱私。然而,近期有網路用戶利用公開的調查文字紀錄與 AI 語音複製技術,重新模擬並還原了罹難飛行員在墜機前的最後對話。此舉引發了嚴重的倫理與法律爭議,美國當局正緊急尋求對策,以阻止這種利用技術漏洞規避法律限制的行為。
根據外媒報導,美國總統川普突然取消了一項關於 AI 安全測試行政命令(EO)的簽署儀式。起因是多家頂尖 AI 公司的執行長拒絕出席該活動。在遭到科技界冷落後,川普隨後延遲了該行政命令的發布,並改口宣稱這項安全測試規範將會成為 AI 技術發展的「創新阻礙」。此舉反映出政府監管政策與科技巨頭之間的緊張關係。
Google 搜尋在進行 AI 相關更新後,被發現存在一個嚴重的介面錯誤:只要使用者輸入「disregard」(意為忽略)這個單字進行搜尋,整個搜尋介面就會直接崩潰。這項問題疑似與 Google 為了防止 AI 遭遇「提示詞注入」(Prompt Injection)攻擊而設定的過度防禦機制有關。目前該單字已無法正常進行 Google 搜尋。
美國總統川普延後簽署一項關鍵的 AI 安全行政命令。該命令原定要求 AI 開發商在發布新模型前,必須先通過政府的安全審查。川普表示,他對該命令目前的文字表述感到不滿,擔心這些條款可能會成為 AI 技術領先與創新的阻礙,因此決定暫緩簽署以進行調整。
由知名心靈導師 Tony Robbins 與冥想 App「Calm」前團隊成員共同創立的 AI 心理健康平台「The Path」正式亮相。該公司強調其 AI 模型在心理健康安全基準測試「Vera-MH」中獲得了 95 分的高分,遠高於一般消費級聊天機器人最高僅 65 分的表現。這項技術旨在解決當前 AI 進行心理諮商時可能產生的安全與倫理風險,提供更具臨床安全性的數位支持。
Google 開發的 AI 水印技術 SynthID 迎來重大突破,宣布獲得 OpenAI、NVIDIA 等多家科技巨頭採用。隨著 AI 生成的文字、影像與影音擬真度大幅提升,如何辨識真偽成為關鍵挑戰。此舉標誌著各大 AI 領導廠商在內容溯源與安全防護上達成罕見共識,有望建立統一的 AI 生成內容識別標準。
Google DeepMind 宣布擴大其內容識別工具,協助使用者了解網頁內容的建立與編輯過程。此舉包含在 Google 搜尋與廣告中整合 C2PA(內容來源和真實性聯盟)元數據,讓使用者能透過「關於此圖片」功能查看圖片是否由 AI 生成或經過編輯。同時,Google 也持續推廣其 SynthID 數位浮水印技術,以提升數位內容的透明度與可信度。
本期 Import AI 聚焦於「自動化 AI 研究」的最新趨勢。隨著大語言模型與 Agent 技術的成熟,AI 系統已開始展現出自動撰寫程式碼、設計新演算法並進行自我訓練的能力。這種「遞迴自我提升(Recursive Self-Improvement)」不僅能極大地加速 AI 研發進程,也引發了關於安全控制、運算資源分配以及 AI 演進速度失控的深思。
Hugging Face 探討 AI 時代的網路安全,指出「隱晦安全」已無法應對現代威脅。文章強調開放模型與開源協作能讓全球研究人員共同審查漏洞、提升防禦彈性,並防止安全技術被少數巨頭壟斷。開放性才是建立安全、可信賴 AI 生態系的基石。
本期電子報涵蓋三大核心議題:首先是利用 AI 自動化進行對齊(Alignment)研究的可能性與挑戰;其次是一項針對中國大語言模型的安全與合規性深入研究,揭示其在特定政治與文化框架下的表現;最後介紹了旨在提升推理效率的全新 4 位元浮點格式 HiFloat4。此外,作者也提出了關於金融市場何時會開始為「科技奇點」進行定價的深刻思考。
本期 Import AI 深入探討三個核心議題:首先是 AI Agent 在面對惡意輸入與複雜環境時的脆弱性與破解方法;其次介紹了代碼生成領域的新技術或基準測試 MirrorCode;最後,透過十種不同視角,探討人類因逐漸將決策權讓渡給 AI 系統而導致的「漸進式失權(Gradual Disempowerment)」風險,並以「火的發明是否等同於當時人類的奇點」進行哲學反思。
本文探討了 AI 領域中圍繞 Anthropic Claude 所建立的「安全神話」,以及輿論對開源權重(open-weight)模型安全性的過度恐慌。作者 Nathan Lambert 指出,這種將開源模型視為重大威脅的論調缺乏實質依據,往往只是閉源陣營或特定政策倡導者重複上演的「開源恐懼之舞」。他呼籲大眾與決策者應理性看待開源的實際風險與巨大價值,避免因不理性的恐懼而扼殺創新。
Google DeepMind 發表針對 AI 「有害操縱」風險的研究,特別聚焦於金融與醫療兩大高風險領域。隨著 AI 技術深入日常生活,如何防止 AI 系統對人類進行心理、經濟或健康決策上的惡意引導至關重要。對此,DeepMind 提出了新型的安全評估與防護機制,旨在建立更具韌性且安全的 AI 部署標準。
Jack Clark 在本期電子報中探討了三個技術趨勢與一個社會政治議題。技術上,LLM 訓練其他 LLM(合成資料與自我提升)正成為主流;社群成功完成了 72B 參數模型的分散式訓練,展示了去中心化算力的潛力;同時指出電腦視覺因物理世界的複雜性,比文本生成更具挑戰性。最後,他思考了 AI 的快速崛起是否會導致現有政治體制進入混亂的「過渡期」。
本期 Import AI 聚焦於三個核心議題:首先探討 2026 年是否將成為人類應對「技術奇點」與超級智能(Superintelligence)的關鍵轉折點;其次,分析 AI 在解決前沿數學證明上的最新突破,這象徵著推理能力的顯著提升;最後,介紹了一項評估機器學習研究能力的新基準,為衡量未來 AI 進展提供更客觀的尺度。
知名 AI 觀察家 Jack Clark 在本期電子報中探討了「Agent 生態系(Agent Ecologies)」的崛起與網際網路的轉型。隨著大量自主 Agent 投入網路,傳統由人類主導的網路正轉變為 Agent 互動的迷霧。此外,本期也收錄了一篇科幻短篇,描述 Agent 之間如何互相影響、甚至惡意串通與腐化的未來場景。
Vercel 宣布 AssistLoop 正式加入其 Agents Marketplace。AssistLoop 專注於提供 AI Agent 的「人機協同(Human-in-the-loop)」解決方案,讓開發者能在 Agent 執行高風險或不確定任務時引入人類審查。透過此次整合,Vercel 用戶可以更快速地在專案中部署具備安全護欄與人類協作能力的 AI 應用。
Hugging Face 發布「Open Responses」專題,整理其向全球政府機構(如美、歐監管單位)提交的政策諮詢回應。文章深入探討開源 AI 面臨的監管挑戰、版權爭議與安全評估,並說明這些政策將如何形塑未來的 AI 開發環境,呼籲社群共同關注與參與。
知名 AI 政策專家 Jack Clark 在最新一期電子報中提出三個核心觀點:首先是「紅皇后 AI」,指出 AI 的攻防與演化正陷入不斷奔跑才能維持原狀的競爭;其次是「AI 監管 AI」,隨著 AI 產出速度超越人類極限,未來必須依賴 AI 進行自動化合規與監管;最後是「O型環自動化」,探討在高度自動化的工作流中,最脆弱的單一環節將決定整個系統的成敗。
ServiceNow AI 在 Hugging Face 上發布了 AprielGuard,這是一個專注於安全與對抗防禦的 LLM 防護欄系統。它旨在幫助開發者過濾有害輸入、防止提示詞注入與越獄攻擊。此工具為現代 LLM 應用提供了一層關鍵的安全防禦機制,確保企業級 AI 部署的合規與安全。
Google DeepMind 宣布推出 Gemma Scope 2,這是一套專為全新 Gemma 3 模型家族設計的稀疏自編碼器(SAE)工具包。Gemma Scope 2 旨在提供強大的「可解釋性」工具,讓研究人員能夠深入剖析模型內部的神經元激活狀態與決策邏輯。此舉將大幅降低 AI 安全與機制可解釋性(Mechanistic Interpretability)研究的門檻,協助社群理解複雜語言模型的行為。
Google DeepMind 宣布加強與英國 AI 安全研究所(UK AISI)的合作關係。雙方將針對前沿 AI 模型的安全評估、風險緩解及安全研究展開更緊密的協作。此舉旨在建立更完善的 AI 安全標準,確保未來強大 AI 系統的開發與部署符合安全規範。
Google DeepMind 宣布將進一步加強與英國政府的合作關係。此合作核心在於人工智慧(AI)快速發展的時代中,共同促進經濟繁榮並確保技術安全。雙方將攜手應對前沿 AI 技術帶來的機遇與挑戰,為未來的安全治理與科技創新奠定堅實基礎。
Google DeepMind 宣布將其先進的 SynthID 浮水印技術整合至 Gemini 應用程式中。這項技術能在不影響視覺品質的前提下,於 AI 生成的圖像中植入隱形浮水印,即使經過裁剪、壓縮或編輯也能被偵測。此舉旨在協助用戶辨識 AI 生成內容,應對深偽(Deepfake)與假訊息挑戰,並推動數位內容的透明度。
Hugging Face 發表全新的「Voice Consent Gate」安全機制,旨在解決語音複製技術帶來的深偽(Deepfake)與盜用風險。該機制要求用戶在複製語音前,必須錄製一段特定的動態聲明以驗證身份與授權意願。這項開源工具將幫助開發者輕鬆在應用中整合語音授權驗證,推動更負責任的 AI 語音技術發展。