Google DeepMind 發表全新 AI 系統「Co-Scientist」,採用基於 Gemini 的多 Agent(多智慧體)架構。該系統能扮演科學家的虛擬合作夥伴,協助進行文獻回顧、提出新穎假設、設計實驗步驟並分析複雜數據。透過不同專業 Agent 的協作與互相審查,Co-Scientist 旨在大幅縮短科研週期,推動生物、化學及材料科學等領域的突破。
AI 研發團隊 Thinking Machines 推出全新原生互動模型「TML-Interaction-Small 276B-A12B」。該模型專為即時語音設計,擁有 276B 總參數與 12B 啟用參數。它不僅刷新了即時語音的技術前沿(SOTA),更透過原生互動機制,徹底取代了傳統的語音活動檢測(VAD)模組,實現更自然、無縫的雙向語音對話。
最新一期 Import AI 聚焦於三大前沿議題。首先,分析了遞迴自我改進(RSI)如何可能引發爆發性的經濟成長,並探討其預測模型。其次,面對難以預測的超智慧(Superintelligence),文章主張監管機構必須保有「極致選擇權」以彈性應對。最後,介紹了結合神經網路架構的新型運算系統(神經電腦)之最新進展。
本文探討了當前科技經濟中極具對比的「雙軌分歧」現象。一方面,多數科技企業正經歷超過 10% 的裁員潮與預算緊縮;另一方面,以 Anthropic 為首的頂尖 AI 公司卻以每年 10 倍的速度瘋狂成長。這種資金與人才高度向生成式 AI 領域集中的現象,正劇烈重塑科技產業的就業與發展版圖。
OpenAI 推出全新一代即時語音與音訊 API,包含 GPT-Realtime-2、GPT-Translate 以及 GPT-Whisper。這些 API 將 GPT-5 的強大能力導入語音領域,提供全新業界領先(SOTA)的即時語音互動、多語言翻譯與語音識別效能,展現了 OpenAI 將 GPT-5 架構全面鋪設至各類應用場景的野心。
知名 AI 專家 Nathan Lambert 親自走訪中國多家領先的 AI 實驗室(如 DeepSeek、智譜 AI、零一萬物等),分享第一手觀察。他指出,面對美國嚴苛的晶片制裁,中國實驗室展現出驚人的系統級工程與架構優化能力,並以極低成本推動開源模型(如 Qwen 與 DeepSeek)的快速迭代。然而,嚴格的政府監管審查與對即時商業變現的焦慮,也形塑了與矽谷截然不同的 AI 發展生態。
根據 Latent Space 報導,Anthropic 與 xAI 達成一項歷史性的算力租賃協議。Anthropic 將以每年 50 億美元的價格,租用 xAI 旗下 Colossus I 超級電腦叢集高達 300MW 的電力容量。這項交易不僅代表著 AI 算力市場的版圖重組,也讓相關實體的年化經常性收入(ARR)呈現驚人的 8000% 爆發式成長,顯示出前沿模型對算力的極度飢渴。
Google DeepMind 發表 AlphaEvolve 的最新進展。這款由 Gemini 驅動的程式碼 Agent(Coding Agent)透過先進的演算法,在商業營運、基礎設施優化以及科學研究三大領域展現強大影響力。它不僅能自動化編寫程式,更能自我演化以適應複雜的跨領域需求,加速技術落地。
近期一系列的產業動態與產品發布,皆指向同一個核心趨勢:矽谷正認真將焦點轉向「AI 服務(Services)」。這意味著 AI 不再只是輔助人類的軟體工具(SaaS),而是能直接交付工作成果的代理人(Agents)。這種「以服務為軟體(Service-as-a-Software)」的轉變,將徹底重塑企業外包、客服及專業諮詢等數兆美元的服務業市場。
Vercel 推出「自動將 Git 提交者加入團隊」的新功能。當成員向與 Vercel 專案連結的 Git 儲存庫提交程式碼時,系統會自動將其識別並加入至 Vercel 團隊中。這項更新大幅簡化了開發團隊的成員引導流程,減少手動管理帳號與權限的繁瑣步驟,提升協作效率。
本集 Latent Space 訪談邀請到加入 OpenAI 的理論物理學家 Alex Lupsasca,深入探討 GPT-5.x 如何在極度複雜的理論物理與量子重力領域中,協助推導出前所未有的新物理結果。這不僅展示了 AI 在符號運算與高度抽象思考上的躍進,也揭示了「直覺物理」(Vibe Physics)如何與嚴謹數學結合,預示著 AI 驅動科學發現(AI for Science)的新時代。
在 AI 發展的十字路口,業界正對其定位展開深思。一派主張 AI 應如 Clippy 般作為無形、高效的「實用工具」(The Utility),專注於完成任務;另一派則主張 AI 應作為「他者」(The Other),具備獨特的性格與主體性。這場爭論不僅關乎產品設計,更深植於人類如何與非人類智慧共存的哲學思考。
近期 AI 業界出現將「知識蒸餾(Distillation)」稱為「蒸餾攻擊(Distillation attacks)」的趨勢。 這反映了閉源模型廠商(如 OpenAI、Anthropic)面對開源模型透過合成數據快速追趕時的焦慮。 作者 Nathan Lambert 指出,將這種行之有年的機器學習技術與商業競爭行為「安全化(securitize)」,試圖將其塑造成惡意網路攻擊,是非常糟糕且誤導的術語,旨在為法律訴訟或技術封鎖鋪路。
本期 Import AI 聚焦於「自動化 AI 研究」的最新趨勢。隨著大語言模型與 Agent 技術的成熟,AI 系統已開始展現出自動撰寫程式碼、設計新演算法並進行自我訓練的能力。這種「遞迴自我提升(Recursive Self-Improvement)」不僅能極大地加速 AI 研發進程,也引發了關於安全控制、運算資源分配以及 AI 演進速度失控的深思。
本文介紹 AI 新創公司 General Intelligence 的實踐案例。他們在 Vercel 上構建了一個 AI Agent 平台,最特別的是,整個開發過程高度依賴 AI Agent 來編寫與優化代碼。透過 Vercel AI SDK、Next.js 與 Vercel 的 Serverless 架構,他們不僅實現了極速的迭代,還展示了「用 Agent 創造 Agent 平台」的未來開發範式。
Google DeepMind 正在研發「AI 協同臨床醫生(AI co-clinician)」系統,探索 AI 輔助醫療的新路徑。該研究專注於建立能與人類醫生協作的 AI 助手,協助進行臨床推理、病歷撰寫與醫患溝通。此舉旨在緩解全球醫療資源緊張問題,並在確保安全與倫理的前提下,提升醫療服務的品質與效率。
本文深入探討 IBM 最新開源的 Granite 4.1 大語言模型家族。詳細介紹了其從數據清洗、模型架構設計(如優化的 Transformer 結構)到指令微調與安全對齊的完整構建流程。Granite 4.1 延續了 IBM 對於企業級安全與 Apache 2.0 開源協議的承諾,並在代碼生成、工具調用及多語言推理上展現出優異性能。
NVIDIA 推出全新輕量級多模態模型 Nemotron 3 Nano Omni,主打「長文本」與「多模態」處理能力。該模型專為文件分析、語音與影片理解的 AI Agent 所設計,能在資源受限的設備上運行。這標誌著邊緣端(On-device)多模態 Agent 應用的重大突破。
Vercel 發表了 2026 年 AI 加速器(AI Accelerator)的官方回顧。本屆計劃聚焦於協助早期 AI 新創將創意轉化為生產級應用,重點展示了多個在 AI Agent、多模態互動及邊緣運算領域取得突破的團隊。文章總結了入選項目的技術亮點,並強調了 Vercel AI SDK 與 Next.js 在現代 AI 開發堆疊中的核心地位。
Google DeepMind 宣布與大韓民國(南韓)建立全新合作關係。雙方將攜手利用最先進的前沿 AI 模型,共同加速科學領域的突破性研究。此合作旨在結合 Google DeepMind 的 AI 技術實力與韓國強大的科研生態系統,為全球科學挑戰尋找新型解決方案。
賓州大學教授 Ethan Mollick 針對 GPT-5.5 發表評論。他指出,GPT-5.5 的出現再次證實了 AI 技術並未如外界預期般遭遇瓶頸,而是沿著陡峭的成長曲線繼續攀升。這款新模型在推理、任務執行與自主代理能力上展現了顯著的進步,為未來的自動化工作與人機協作揭開了全新序幕。
Google DeepMind 宣布與全球諮詢公司建立合作夥伴關係,旨在將其最先進的 AI 技術導入各行各業。透過諮詢機構的產業經驗與 DeepMind 的技術實力,協助企業克服技術落地痛點。此舉將加速全球組織的 AI 轉型,推動大規模的商業應用與創新。
阿聯酋技術創新研究所(TII)在 Hugging Face 上推出了名為「QIMMA」(阿拉伯語意為「山頂」)的全新阿拉伯語 LLM 排行榜。該排行榜主打「品質優先」,旨在解決現有阿拉伯語評估基準中常見的翻譯失真與缺乏方言代表性等問題。QIMMA 透過更嚴格、更貼近在地文化的評測標準,為阿拉伯語 AI 模型的開發提供更具公信力的衡量指標。
Hugging Face 探討 AI 時代的網路安全,指出「隱晦安全」已無法應對現代威脅。文章強調開放模型與開源協作能讓全球研究人員共同審查漏洞、提升防禦彈性,並防止安全技術被少數巨頭壟斷。開放性才是建立安全、可信賴 AI 生態系的基石。
本文探討了比較開源(如 Llama)與閉源(如 GPT、Claude)模型時,過度依賴單一評估指標(如 MMLU 或 Arena Elo)的盲點。作者指出,基準測試受提示詞敏感度、測試集污染及後訓練(Post-training)策略影響極大。未來,隨著推理期計算(Inference-time compute)與 Agent 應用的興起,評估模型性能的維度將發生根本性轉變。
本期電子報涵蓋三大核心議題:首先是利用 AI 自動化進行對齊(Alignment)研究的可能性與挑戰;其次是一項針對中國大語言模型的安全與合規性深入研究,揭示其在特定政治與文化框架下的表現;最後介紹了旨在提升推理效率的全新 4 位元浮點格式 HiFloat4。此外,作者也提出了關於金融市場何時會開始為「科技奇點」進行定價的深刻思考。
知名 AI 學者 Nathan Lambert 針對 2026 年年中的開源模型發展提出預測。他指出,開源與閉源模型之間的差距(Open-Closed Gap)正從「基礎預訓練能力」轉移到「推理期計算(Inference-time compute)」與「代理(Agent)可靠性」。雖然 Meta 的 Llama 4 等開源模型將持續逼近閉源旗艦,但閉源廠商憑藉龐大算力與專有強化學習(RL)架構,在複雜多步驟任務上仍將保持領先。
Google DeepMind 發表全新語音模型 Gemini 3.1 Flash TTS。該模型引入了「細粒度音訊標籤」(granular audio tags),讓開發者與創作者能夠精確引導 AI 語音的生成細節。這項技術大幅提升了 AI 語音的表現力與可控性,為下一代語音互動與內容創作奠定基礎。
由前 DeepMind 團隊創立的法國 AI 新創 HCompany 宣布推出 AI 瀏覽器助手「HoloTab」。這款工具旨在將 AI 代理(Agent)能力直接帶入瀏覽器中,不僅能進行網頁摘要,更主打強大的網頁自動化操作。透過 HCompany 旗下的動作模型(Action Models),HoloTab 能協助使用者自動執行複雜的跨網頁任務,重新定義人機協同的瀏覽體驗。
Vercel 宣布其 AI Gateway 正式支援 Seedance 2.0 影片生成模型。開發者現在可以透過 Vercel 的統一接口,輕鬆將先進的影片生成功能整合至應用程式中。此更新讓開發者能同時享有 AI Gateway 提供的快取、速率限制及監控分析等強大功能,優化影片生成應用的開發流程與成本。