本期 Latent Space 探討了 AI 產業的重大範式轉移:各大頂尖模型實驗室已不再單純追求基礎 LLM 的參數規模,而是全面轉向「Agent(智慧代理)」的開發。隨著純模型微調的邊際效應遞減,透過讓 AI 具備操作電腦、自主規劃與執行多步驟任務的能力,已成為當前競逐的新戰場。
OpenAI 的新一代模型 GPT-next 展現了驚人的數學推理能力,成功證偽了由著名數學家保羅·艾狄胥(Paul Erdős)於 1946 年提出的平面單位距離猜想。 令人震驚的是,這項突破性研究所花費的運算成本竟然不到 1,000 美元。 此成果標誌著 AI 在科學與數學發現上的巨大潛力,展示了推理模型在解決未解科學難題時的高效與低成本。
Google DeepMind 正式發表新一代模型 Gemini 3.5,強調「具備行動力的前沿智能」。 該模型的核心設計旨在協助使用者執行複雜的代理型工作流(agentic workflows),代表 AI 從單純的資訊檢索走向主動執行任務。 這項更新將為開發者與企業帶來更強大的自動化與多步驟決策能力。
在一個相對平靜的新聞日,Latent Space 帶領讀者反思「微調(Fine-tuning)的終結」這一命題。 隨著長上下文視窗、高效 RAG 以及上下文內學習(In-context Learning)的成熟,許多原本需要微調的場景已被取代。 未來微調可能退化為僅用於調整輸出格式、風格或進行模型蒸餾的工具,而非首選的知識注入手段。
本集 Latent Space 訪談邀請到加入 OpenAI 的理論物理學家 Alex Lupsasca,深入探討 GPT-5.x 如何在極度複雜的理論物理與量子重力領域中,協助推導出前所未有的新物理結果。這不僅展示了 AI 在符號運算與高度抽象思考上的躍進,也揭示了「直覺物理」(Vibe Physics)如何與嚴謹數學結合,預示著 AI 驅動科學發現(AI for Science)的新時代。
賓州大學教授 Ethan Mollick 針對 GPT-5.5 發表評論。他指出,GPT-5.5 的出現再次證實了 AI 技術並未如外界預期般遭遇瓶頸,而是沿著陡峭的成長曲線繼續攀升。這款新模型在推理、任務執行與自主代理能力上展現了顯著的進步,為未來的自動化工作與人機協作揭開了全新序幕。
知名 AI 學者 Nathan Lambert 針對 2026 年年中的開源模型發展提出預測。他指出,開源與閉源模型之間的差距(Open-Closed Gap)正從「基礎預訓練能力」轉移到「推理期計算(Inference-time compute)」與「代理(Agent)可靠性」。雖然 Meta 的 Llama 4 等開源模型將持續逼近閉源旗艦,但閉源廠商憑藉龐大算力與專有強化學習(RL)架構,在複雜多步驟任務上仍將保持領先。
本文分析了 AI 領域熱議的「自我提升(Self-improvement)」機制。作者指出,雖然模型透過生成合成數據、強化學習(RL)和自我校對確實能實現效能提升,但這個過程是「有損(Lossy)」的。每次迭代都會伴隨資訊流失與誤差累積,因此自我提升並不會導致預言中的「急遽暴漲(Fast Takeoff)」或瞬間的智能爆炸,而是呈現邊際效益遞減的漸進式成長。
Hugging Face 發布 2026 年春季開源報告,揭示開源 AI 生態的最新趨勢。報告指出,具備推理能力的開源模型(如 DeepSeek 與 Qwen 系列)已成為社群主流;同時,以 smolagents 為首的輕量級 Agent 框架與本機端(On-Device)小模型正快速普及。此外,開源多模態與影片生成技術的下載量也創下歷史新高,展現出開源社群強大的創新動能。
沃頓商學院教授 Ethan Mollick 撰文分析 AI 的現狀與未來。他指出,雖然基礎模型的純暴力縮放(Scaling)可能遇到瓶頸,但透過「推論時運算」(Inference-time compute)如 OpenAI o1/o3 和 Claude 3.7 Sonnet,AI 的推理能力正大幅躍進。我們正處於從「對話式 AI」轉向「自主 Agent」的關鍵節點,這將徹底重塑工作流程與組織架構。
Replicate 介紹了新一代影像生成模型 Seedream 5.0 的 Prompt 撰寫技巧。該模型三大核心亮點為:支援多步驟推理(能先規劃再生成)、基於範例的影像編輯(透過參考圖進行精準修改),以及具備深厚的領域知識。本文將引導開發者與創作者如何善用這些新特性,創造出更符合預期的視覺作品。
Google DeepMind 宣布推出新一代模型 Gemini 3.1 Pro。該模型專為需要深度思考與複雜處理的任務而設計,旨在解決傳統簡單回答無法滿足的進階需求。這標誌著 Gemini 系列在複雜推理與專業工作流上的進一步升級,將為開發者與企業用戶在建構 AI Agent 及處理高難度邏輯推理時,提供更強大的運算大腦與解決方案。
隨著 AI 從單純的「聊天機器人」演進至具備主動執行能力的「代理人(Agents)」與深度思考的「推理模型(Reasoning Models)」,使用策略已大幅改變。本文整理了當前主流 AI(如 GPT、Claude、Gemini 及 DeepSeek)在寫作、程式開發、資料分析與自動化任務中的定位。讀者將能理解何時該用一般聊天、何時該啟動推理,以及如何佈署代理人來提升生產力。
本文探討開源與閉源 AI 模型之間的動態關係。開源模型(如 Llama、DeepSeek)常利用閉源模型的輸出進行「蒸餾」來快速追趕,但這也讓它們始終落後一步。儘管如此,開源模型憑藉著低成本、高客製化與強大的開發者生態,在實用普及度上依然能取得勝利。然而,要打破這種「永久追趕」的狀態,開源社群仍需在基礎架構創新與自主強化學習(RL)上取得突破。
Google DeepMind 發文指出,Gemini Deep Think 在學術與科學研究中的影響力正快速增長。透過延伸思考時間(Thinking time)與深度推理,該模型在複雜數學證明、科學假設生成及程式碼編寫上展現顯著優勢。多篇研究論文證實,這種具備「系統二」慢思考能力的 AI 模型,正成為科學家與研究人員不可或缺的協作工具,有效縮短研究週期。
在「DeepSeek 時刻」屆滿一週年之際,Hugging Face 發文探討中國開源 AI 生態系的技術演進。文章深入分析了中國各大 AI 團隊(如 Qwen、GLM、Yi 等)如何超越 DeepSeek 的既有框架,在混合專家模型(MoE)、多頭潛在注意力(MLA)以及強化學習(GRPO)等架構上進行抉擇與創新。這些技術選擇不僅是為了應對算力限制,更重塑了全球開源 AI 的高效率與低成本標準。
2025 年初的「DeepSeek 時刻」以超低訓練成本與強大推理能力震驚全球。一年過去,Hugging Face 回顧了這場變革對開源社群的深遠影響,包括 GRPO 強化學習演算法的普及、MoE 架構的廣泛應用,以及全球開發者如何擺脫對閉源巨頭的依賴,走向更自主、高效的本地部署與微調時代。這標誌著 AI 發展從「算力軍備競賽」走向「演算法與效率至上」的新紀元。
Google DeepMind 發表 2025 年度回顧,總結了今年在 8 大關鍵領域的研究突破。內容涵蓋 Gemini 多模態模型的演進、AlphaFold 3 帶來的生醫革命、AlphaProof 在數學推理的進展,以及 AI 在氣象預測、材料科學和機器人控制等領域的實際應用。這份回顧展示了 AI 如何從單純的語言助手,加速轉化為推動人類科學探索的強大引擎。
ServiceNow AI 發表最新研究「Apriel-H1」,聚焦於如何將大型推理模型(如具備強大 Chain-of-Thought 能力的模型)的推理能力,高效蒸餾至尺寸較小、運行成本更低的實用模型中。該研究指出了一個過去被忽視的「驚人關鍵」,能顯著提升小模型在複雜邏輯與數學推理任務上的表現,為企業級 AI 落地提供更具成本效益的解決方案。
Google DeepMind 宣布推出全新一代旗艦模型 Gemini 3。此版本在多模態理解、複雜邏輯推理及長文本處理能力上皆有顯著突破。Gemini 3 更加強調「主動式智能體(Agentic AI)」的實用化,能自主規劃並執行跨平台的複雜任務,並大幅降低了延遲與運算成本,為個人與企業應用帶來全新變革。
Google DeepMind 推出新一代 AI 代理 SIMA 2,全面導入 Gemini 模型的能力。SIMA 2 不僅能在多個 3D 虛擬與遊戲世界中執行任務,還具備更強的推理、語言理解與即時決策能力。這項技術展示了 AI 如何從單純的指令接收者,演變為能在複雜互動環境中與人類協同合作的智慧夥伴。
Google DeepMind 宣布推出「AI for Math Initiative」計畫,旨在匯聚全球最頂尖的學術與研究機構,共同開創人工智慧在數學研究中的應用。該倡議將專注於利用 AI 工具協助數學家解決複雜難題、發現新定理,並推動數學科學的整體進步。這標誌著 AI 從輔助計算走向深度參與基礎科學探索的新里程碑。
Google DeepMind 宣布,搭載全新「Deep Think」思考技術的進階版 Gemini 模型,在國際奧林匹亞數學競賽(IMO)的測試中正式達到了金牌得主的水準。這項突破展示了 AI 在處理極具挑戰性的代數、組合數學、幾何和數論等複雜推理問題上的巨大進步。此成果不僅是 AI 數學推理能力的里程碑,也代表著強化學習與系統化思考(System 2 thinking)在大型語言模型上的成功應用。
Google 正式在 Gemini 應用程式中為 Google AI Ultra 訂閱者推出「Deep Think」深度思考功能。此外,Google 也向特定的數學家開放了曾參加國際數學奧林匹亞(IMO)競賽的 Gemini 2.5 Deep Think 完整版模型,讓專業人士能體驗其強大的數學推理能力。
Enterprise AI 公司 Writer 在 Hugging Face 上推出了全新的「Palmyra-mini」模型系列。該系列主打輕量化與強大效能,並特別強調具備「推理(reasoning)」能力。這使得開發者能在資源受限的環境中,部署具備複雜邏輯思考與問題解決能力的 AI 模型,為邊緣運算與企業應用提供新選擇。
Hugging Face 發表全新基準測試「FutureBench」,旨在評估 AI Agent 在預測未來事件(如地緣政治、金融市場及科技趨勢)上的表現。該測試挑戰了 Agent 的資訊檢索、機率推理與時間推理能力,有效避免了傳統基準測試中常見的資料洩漏問題。評估結果顯示,目前的 AI Agent 在面對未知的未來事件時,預測準確度與人類專家仍有顯著差距。
Google DeepMind 宣布更新 Gemini 2.5 系列模型。備受開發者喜愛的 Gemini 2.5 Pro 將推出實驗性的「Deep Think」增強推理模式,大幅提升複雜問題的解決能力;同時,主打輕量高效的 Gemini 2.5 Flash 也獲得全新升級,帶來更強大的功能與效能表現。
xAI 宣布開放旗下旗艦模型 Grok 3 以及全新輕量級模型 Grok 3-mini 的 API 服務。Grok 3-mini 的輸出定價極具市場競爭力,每百萬 token 僅需 0.5 美元。官方聲稱這款輕量模型性能可媲美體積大得多的前沿模型,並能展示完整的推理思考過程(reasoning traces),為開發者在構建 AI 應用時提供高性價比的推理新選擇。
Google 正式發表 Gemini 2.5 Flash,在 LMArena 的性價比曲線(Pareto Frontier)上展現極強的主導地位。此版本定價精準填補了 2.0 Flash 與 2.5 Pro 之間的空白。最受矚目的新功能是「思考預算(Thinking Budget)」,允許開發者精確設定思考 Token 的上限,相較於 OpenAI 與 Anthropic 僅提供粗略的強弱設定,給予開發者更細緻的控制權。社群普遍認為 Google 近期的執行力與產品發布節奏已完全甦醒。
OpenAI 正式發表新一代推理模型 o3 與 o4-mini,強調透過 10 倍強化學習(RL)算力提升推理效率。o4-mini 不僅價格更便宜,在多項指標、視覺與工具調用能力上皆有顯著進步。此外,OpenAI 還驚喜推出了完全開源的終端機 AI 工具 Codex CLI,直接對標 Anthropic 的 Claude Code。