本集 Latent Space 訪談邀請到加入 OpenAI 的理論物理學家 Alex Lupsasca,深入探討 GPT-5.x 如何在極度複雜的理論物理與量子重力領域中,協助推導出前所未有的新物理結果。這不僅展示了 AI 在符號運算與高度抽象思考上的躍進,也揭示了「直覺物理」(Vibe Physics)如何與嚴謹數學結合,預示著 AI 驅動科學發現(AI for Science)的新時代。
在 AI 發展的十字路口,業界正對其定位展開深思。一派主張 AI 應如 Clippy 般作為無形、高效的「實用工具」(The Utility),專注於完成任務;另一派則主張 AI 應作為「他者」(The Other),具備獨特的性格與主體性。這場爭論不僅關乎產品設計,更深植於人類如何與非人類智慧共存的哲學思考。
近期 AI 業界出現將「知識蒸餾(Distillation)」稱為「蒸餾攻擊(Distillation attacks)」的趨勢。 這反映了閉源模型廠商(如 OpenAI、Anthropic)面對開源模型透過合成數據快速追趕時的焦慮。 作者 Nathan Lambert 指出,將這種行之有年的機器學習技術與商業競爭行為「安全化(securitize)」,試圖將其塑造成惡意網路攻擊,是非常糟糕且誤導的術語,旨在為法律訴訟或技術封鎖鋪路。
本期 Import AI 聚焦於「自動化 AI 研究」的最新趨勢。隨著大語言模型與 Agent 技術的成熟,AI 系統已開始展現出自動撰寫程式碼、設計新演算法並進行自我訓練的能力。這種「遞迴自我提升(Recursive Self-Improvement)」不僅能極大地加速 AI 研發進程,也引發了關於安全控制、運算資源分配以及 AI 演進速度失控的深思。
Google DeepMind 正在研發「AI 協同臨床醫生(AI co-clinician)」系統,探索 AI 輔助醫療的新路徑。該研究專注於建立能與人類醫生協作的 AI 助手,協助進行臨床推理、病歷撰寫與醫患溝通。此舉旨在緩解全球醫療資源緊張問題,並在確保安全與倫理的前提下,提升醫療服務的品質與效率。
本文深入探討 IBM 最新開源的 Granite 4.1 大語言模型家族。詳細介紹了其從數據清洗、模型架構設計(如優化的 Transformer 結構)到指令微調與安全對齊的完整構建流程。Granite 4.1 延續了 IBM 對於企業級安全與 Apache 2.0 開源協議的承諾,並在代碼生成、工具調用及多語言推理上展現出優異性能。
Hugging Face 宣布將知名低成本、高效能的推理平台 DeepInfra 整合至其「推理服務商(Inference Providers)」計畫中。現在,開發者在 Hugging Face Hub 上瀏覽開源模型(如 Llama 3、Mistral 等)時,可以直接選擇 DeepInfra 作為後端託管 API,無需自行架設 GPU 基礎設施。這項合作為開發者提供了更多元、更具性價比的無伺服器(Serverless)推理選擇,進一步簡化了 AI 應用的部署流程。
NVIDIA 推出全新輕量級多模態模型 Nemotron 3 Nano Omni,主打「長文本」與「多模態」處理能力。該模型專為文件分析、語音與影片理解的 AI Agent 所設計,能在資源受限的設備上運行。這標誌著邊緣端(On-device)多模態 Agent 應用的重大突破。
Google DeepMind 宣布與大韓民國(南韓)建立全新合作關係。雙方將攜手利用最先進的前沿 AI 模型,共同加速科學領域的突破性研究。此合作旨在結合 Google DeepMind 的 AI 技術實力與韓國強大的科研生態系統,為全球科學挑戰尋找新型解決方案。
Hugging Face 釋出最新指南,探討如何利用 OpenAI 的 Privacy Filter 建立安全且具擴展性的 Web 應用。文章深入分析了隱私過濾器在處理個人識別資訊(PII)與企業敏感數據時的角色,並提供結合 Hugging Face 生態系與後端架構的實作建議,幫助開發者在兼顧隱私合規與系統效能的前提下進行大規模部署。
Hugging Face 介紹全新 DeepSeek-V4 模型,具備 100 萬 Token 的超長上下文能力。不同於以往流於形式的長文本模型,DeepSeek-V4 專為 Agent 設計,在長文本召回率與指令遵循上表現優異。本文探討其技術突破、在 Hugging Face 生態系的部署方式,以及如何實際應用於複雜的 Agent 工作流中。
賓州大學教授 Ethan Mollick 針對 GPT-5.5 發表評論。他指出,GPT-5.5 的出現再次證實了 AI 技術並未如外界預期般遭遇瓶頸,而是沿著陡峭的成長曲線繼續攀升。這款新模型在推理、任務執行與自主代理能力上展現了顯著的進步,為未來的自動化工作與人機協作揭開了全新序幕。
Google DeepMind 發表「Decoupled DiLoCo」技術,旨在解決跨資料中心或不穩定網路環境下的 AI 訓練難題。該技術改良了原有的 DiLoCo 演算法,將本地訓練與全域同步解耦,大幅提升了對「慢節點(stragglers)」與斷線的容錯能力。這項突破讓利用全球閒置或異質算力進行超大規模模型訓練變得更加可行。
阿聯酋技術創新研究所(TII)在 Hugging Face 上推出了名為「QIMMA」(阿拉伯語意為「山頂」)的全新阿拉伯語 LLM 排行榜。該排行榜主打「品質優先」,旨在解決現有阿拉伯語評估基準中常見的翻譯失真與缺乏方言代表性等問題。QIMMA 透過更嚴格、更貼近在地文化的評測標準,為阿拉伯語 AI 模型的開發提供更具公信力的衡量指標。
Hugging Face 探討 AI 時代的網路安全,指出「隱晦安全」已無法應對現代威脅。文章強調開放模型與開源協作能讓全球研究人員共同審查漏洞、提升防禦彈性,並防止安全技術被少數巨頭壟斷。開放性才是建立安全、可信賴 AI 生態系的基石。
本文探討了比較開源(如 Llama)與閉源(如 GPT、Claude)模型時,過度依賴單一評估指標(如 MMLU 或 Arena Elo)的盲點。作者指出,基準測試受提示詞敏感度、測試集污染及後訓練(Post-training)策略影響極大。未來,隨著推理期計算(Inference-time compute)與 Agent 應用的興起,評估模型性能的維度將發生根本性轉變。
本期電子報涵蓋三大核心議題:首先是利用 AI 自動化進行對齊(Alignment)研究的可能性與挑戰;其次是一項針對中國大語言模型的安全與合規性深入研究,揭示其在特定政治與文化框架下的表現;最後介紹了旨在提升推理效率的全新 4 位元浮點格式 HiFloat4。此外,作者也提出了關於金融市場何時會開始為「科技奇點」進行定價的深刻思考。
Ecom-RLVE 是一個專為電子商務對話 Agent 設計的自適應可驗證環境。它解決了電商 AI 難以在動態場景下評估與確保合規性的痛點。透過模擬多樣化的用戶行為與後台 API,並結合自動驗證機制,開發者能更安全地訓練與測試具備工具調用能力的電商 Agent。
Hugging Face 發表最新技術部落格,介紹了將 transformers 模型無縫轉換至 Apple MLX 框架的全新整合。這項被譽為「你自己也會想開的 PR」的更新,解決了過去 Mac 開發者在 Apple Silicon 上部署與微調開源模型時的繁瑣步驟。透過此整合,開發者能直接利用 MLX 的統一記憶體優勢,在 Mac 上實現極致的推理與訓練效能。
Hugging Face 發布最新指南,展示如何利用 Sentence Transformers 框架進行多模態嵌入與 Reranker 模型的訓練與微調。此更新簡化了將文字與影像對齊至同一向量空間的流程,並支援雙塔(Bi-Encoder)與交叉編碼器(Cross-Encoder)架構。這對於建構多模態 RAG(檢索增強生成)系統與跨模態搜尋引擎的開發者來說,提供了極低門檻的實作路徑。
知名 AI 學者 Nathan Lambert 針對 2026 年年中的開源模型發展提出預測。他指出,開源與閉源模型之間的差距(Open-Closed Gap)正從「基礎預訓練能力」轉移到「推理期計算(Inference-time compute)」與「代理(Agent)可靠性」。雖然 Meta 的 Llama 4 等開源模型將持續逼近閉源旗艦,但閉源廠商憑藉龐大算力與專有強化學習(RL)架構,在複雜多步驟任務上仍將保持領先。
Google DeepMind 發表全新語音模型 Gemini 3.1 Flash TTS。該模型引入了「細粒度音訊標籤」(granular audio tags),讓開發者與創作者能夠精確引導 AI 語音的生成細節。這項技術大幅提升了 AI 語音的表現力與可控性,為下一代語音互動與內容創作奠定基礎。
IBM Research 於 Hugging Face 發表全新基準測試「VAKRA」的分析報告。該測試專為評估 AI Agent 的核心能力而設計,著重於複雜的多步驟推理與動態工具調用。研究不僅評估了主流模型在 Agent 任務中的表現,更系統化地歸納出 Agent 的各類失敗模式(如工具誤用、推理漂移等),為開發者優化 Agent 系統提供關鍵指引。
知名 AI 專家 Nathan Lambert 分享了近期四大專案:專注於對齊與開源模型的「ATOM Report」、系統化的「Post-Training(後訓練)」線上實戰課程、即將完稿的 AI 對齊專業書籍,以及持續進行的 LLM 評估與偏好微調研究。這些計畫旨在為開發者與研究人員填補後訓練技術的知識鴻溝。
Google DeepMind 發表全新 Gemini Robotics-ER 1.6 模型,專為自主機器人設計。該版本專注於提升「具身推理(Embodied Reasoning)」能力,特別加強了空間推理與多視角理解。這項技術突破將使機器人能更精準地整合不同角度的視覺資訊,並在真實世界中執行更複雜的物理任務。
本期 Import AI 深入探討三個核心議題:首先是 AI Agent 在面對惡意輸入與複雜環境時的脆弱性與破解方法;其次介紹了代碼生成領域的新技術或基準測試 MirrorCode;最後,透過十種不同視角,探討人類因逐漸將決策權讓渡給 AI 系統而導致的「漸進式失權(Gradual Disempowerment)」風險,並以「火的發明是否等同於當時人類的奇點」進行哲學反思。
知名 AI 譯評家 Nathan Lambert 撰文指出,當前開源 AI 生態高度依賴 Meta(如 Llama 系列)等單一巨頭的補貼,這存在極大的單點故障風險。隨著前沿模型訓練成本飆升至數億美元,單一新創或學術機構已無力負擔。因此,儘管「聯盟(Consortium)」通常伴隨著官僚與低效,但為了整合政府、科技企業與學術界的算力與資金,建立一個「開源模型聯盟」已是維持開源 AI 競爭力、對抗閉源寡頭壟斷的唯一且必然之路。
本文探討了 AI 領域中圍繞 Anthropic Claude 所建立的「安全神話」,以及輿論對開源權重(open-weight)模型安全性的過度恐慌。作者 Nathan Lambert 指出,這種將開源模型視為重大威脅的論調缺乏實質依據,往往只是閉源陣營或特定政策倡導者重複上演的「開源恐懼之舞」。他呼籲大眾與決策者應理性看待開源的實際風險與巨大價值,避免因不理性的恐懼而扼殺創新。
Hugging Face 宣布其熱門開源庫 Sentence Transformers 正式支援多模態(Multimodal)嵌入與重排(Reranker)模型。開發者現在可以使用統一的 API 同時處理文本與影像,將它們映射到相同的向量空間中。這項更新大幅降低了建構多模態 RAG、圖文搜尋與跨模態推薦系統的門檻。
Hugging Face 發表 Waypoint-1.5,這是一款專為消費級 GPU 優化的互動式世界模擬器。相較於前代,它在提升視覺與物理保真度的同時,大幅降低了硬體門檻。這讓研究人員與開發者能在單張家用顯示卡上,高效進行具身智能(Embodied AI)與強化學習代理的訓練,加速 AI 與物理世界互動的研究。