本期 Latent Space 探討了 AI 產業的重大範式轉移:各大頂尖模型實驗室已不再單純追求基礎 LLM 的參數規模,而是全面轉向「Agent(智慧代理)」的開發。隨著純模型微調的邊際效應遞減,透過讓 AI 具備操作電腦、自主規劃與執行多步驟任務的能力,已成為當前競逐的新戰場。
OpenAI 的新一代模型 GPT-next 展現了驚人的數學推理能力,成功證偽了由著名數學家保羅·艾狄胥(Paul Erdős)於 1946 年提出的平面單位距離猜想。 令人震驚的是,這項突破性研究所花費的運算成本竟然不到 1,000 美元。 此成果標誌著 AI 在科學與數學發現上的巨大潛力,展示了推理模型在解決未解科學難題時的高效與低成本。
Simon Willison 發表了其 CLI 工具外掛 llm-gemini 的 0.32a0 測試版本。此版本主要相容於 llm>=0.32a0 alpha,並新增了串流輸出「思考 Token」(reasoning tokens)的功能。這讓開發者在使用 Gemini 具備推理能力的模型時,能即時在終端機看到模型的思考過程。
Google DeepMind 正式發表新一代模型 Gemini 3.5,強調「具備行動力的前沿智能」。 該模型的核心設計旨在協助使用者執行複雜的代理型工作流(agentic workflows),代表 AI 從單純的資訊檢索走向主動執行任務。 這項更新將為開發者與企業帶來更強大的自動化與多步驟決策能力。
在一個相對平靜的新聞日,Latent Space 帶領讀者反思「微調(Fine-tuning)的終結」這一命題。 隨著長上下文視窗、高效 RAG 以及上下文內學習(In-context Learning)的成熟,許多原本需要微調的場景已被取代。 未來微調可能退化為僅用於調整輸出格式、風格或進行模型蒸餾的工具,而非首選的知識注入手段。
本集 Latent Space 訪談邀請到加入 OpenAI 的理論物理學家 Alex Lupsasca,深入探討 GPT-5.x 如何在極度複雜的理論物理與量子重力領域中,協助推導出前所未有的新物理結果。這不僅展示了 AI 在符號運算與高度抽象思考上的躍進,也揭示了「直覺物理」(Vibe Physics)如何與嚴謹數學結合,預示著 AI 驅動科學發現(AI for Science)的新時代。
賓州大學教授 Ethan Mollick 針對 GPT-5.5 發表評論。他指出,GPT-5.5 的出現再次證實了 AI 技術並未如外界預期般遭遇瓶頸,而是沿著陡峭的成長曲線繼續攀升。這款新模型在推理、任務執行與自主代理能力上展現了顯著的進步,為未來的自動化工作與人機協作揭開了全新序幕。
知名 AI 學者 Nathan Lambert 針對 2026 年年中的開源模型發展提出預測。他指出,開源與閉源模型之間的差距(Open-Closed Gap)正從「基礎預訓練能力」轉移到「推理期計算(Inference-time compute)」與「代理(Agent)可靠性」。雖然 Meta 的 Llama 4 等開源模型將持續逼近閉源旗艦,但閉源廠商憑藉龐大算力與專有強化學習(RL)架構,在複雜多步驟任務上仍將保持領先。
IBM Research 於 Hugging Face 發表全新基準測試「VAKRA」的分析報告。該測試專為評估 AI Agent 的核心能力而設計,著重於複雜的多步驟推理與動態工具調用。研究不僅評估了主流模型在 Agent 任務中的表現,更系統化地歸納出 Agent 的各類失敗模式(如工具誤用、推理漂移等),為開發者優化 Agent 系統提供關鍵指引。
Google DeepMind 正式發表全新開源模型 Gemma 4。官方宣稱其為「同等參數規模下最強大的開源模型」,在智慧表現上達到新高度。該系列模型特別針對進階推理與自主 Agent 工作流進行優化,為開發者提供更高效、更具性價比的開源 AI 選擇。
本文分析了 AI 領域熱議的「自我提升(Self-improvement)」機制。作者指出,雖然模型透過生成合成數據、強化學習(RL)和自我校對確實能實現效能提升,但這個過程是「有損(Lossy)」的。每次迭代都會伴隨資訊流失與誤差累積,因此自我提升並不會導致預言中的「急遽暴漲(Fast Takeoff)」或瞬間的智能爆炸,而是呈現邊際效益遞減的漸進式成長。
Hugging Face 發布 2026 年春季開源報告,揭示開源 AI 生態的最新趨勢。報告指出,具備推理能力的開源模型(如 DeepSeek 與 Qwen 系列)已成為社群主流;同時,以 smolagents 為首的輕量級 Agent 框架與本機端(On-Device)小模型正快速普及。此外,開源多模態與影片生成技術的下載量也創下歷史新高,展現出開源社群強大的創新動能。
沃頓商學院教授 Ethan Mollick 撰文分析 AI 的現狀與未來。他指出,雖然基礎模型的純暴力縮放(Scaling)可能遇到瓶頸,但透過「推論時運算」(Inference-time compute)如 OpenAI o1/o3 和 Claude 3.7 Sonnet,AI 的推理能力正大幅躍進。我們正處於從「對話式 AI」轉向「自主 Agent」的關鍵節點,這將徹底重塑工作流程與組織架構。
Replicate 介紹了新一代影像生成模型 Seedream 5.0 的 Prompt 撰寫技巧。該模型三大核心亮點為:支援多步驟推理(能先規劃再生成)、基於範例的影像編輯(透過參考圖進行精準修改),以及具備深厚的領域知識。本文將引導開發者與創作者如何善用這些新特性,創造出更符合預期的視覺作品。
Google DeepMind 宣布推出新一代模型 Gemini 3.1 Pro。該模型專為需要深度思考與複雜處理的任務而設計,旨在解決傳統簡單回答無法滿足的進階需求。這標誌著 Gemini 系列在複雜推理與專業工作流上的進一步升級,將為開發者與企業用戶在建構 AI Agent 及處理高難度邏輯推理時,提供更強大的運算大腦與解決方案。
隨著 AI 從單純的「聊天機器人」演進至具備主動執行能力的「代理人(Agents)」與深度思考的「推理模型(Reasoning Models)」,使用策略已大幅改變。本文整理了當前主流 AI(如 GPT、Claude、Gemini 及 DeepSeek)在寫作、程式開發、資料分析與自動化任務中的定位。讀者將能理解何時該用一般聊天、何時該啟動推理,以及如何佈署代理人來提升生產力。
本文探討開源與閉源 AI 模型之間的動態關係。開源模型(如 Llama、DeepSeek)常利用閉源模型的輸出進行「蒸餾」來快速追趕,但這也讓它們始終落後一步。儘管如此,開源模型憑藉著低成本、高客製化與強大的開發者生態,在實用普及度上依然能取得勝利。然而,要打破這種「永久追趕」的狀態,開源社群仍需在基礎架構創新與自主強化學習(RL)上取得突破。
Google DeepMind 正式推出 Gemini 3 Deep Think 深度推理模式。此版本專為應對現代科學、前沿研究與複雜工程挑戰而設計,代表了 Google 在 AI 推理技術上的最新突破。該模式著重於多步驟邏輯推理、數學與程式碼建構,旨在為科研人員與工程師提供更強大的決策與分析支援。
Google DeepMind 發文指出,Gemini Deep Think 在學術與科學研究中的影響力正快速增長。透過延伸思考時間(Thinking time)與深度推理,該模型在複雜數學證明、科學假設生成及程式碼編寫上展現顯著優勢。多篇研究論文證實,這種具備「系統二」慢思考能力的 AI 模型,正成為科學家與研究人員不可或缺的協作工具,有效縮短研究週期。
在「DeepSeek 時刻」屆滿一週年之際,Hugging Face 發文探討中國開源 AI 生態系的技術演進。文章深入分析了中國各大 AI 團隊(如 Qwen、GLM、Yi 等)如何超越 DeepSeek 的既有框架,在混合專家模型(MoE)、多頭潛在注意力(MLA)以及強化學習(GRPO)等架構上進行抉擇與創新。這些技術選擇不僅是為了應對算力限制,更重塑了全球開源 AI 的高效率與低成本標準。
Vercel 宣布其 AI Gateway 服務已正式支援阿里雲的 Qwen 3 Max Thinking 模型。 這款具備強大推理(Thinking)能力的模型,現在可以透過 Vercel 的統一 API 進行路由、快取與監控。 這為開發者在構建需要複雜邏輯推理的 AI 應用時,提供了更高效且具成本效益的託管與管理方案。
2025 年初的「DeepSeek 時刻」以超低訓練成本與強大推理能力震驚全球。一年過去,Hugging Face 回顧了這場變革對開源社群的深遠影響,包括 GRPO 強化學習演算法的普及、MoE 架構的廣泛應用,以及全球開發者如何擺脫對閉源巨頭的依賴,走向更自主、高效的本地部署與微調時代。這標誌著 AI 發展從「算力軍備競賽」走向「演算法與效率至上」的新紀元。
NVIDIA 於 Hugging Face 宣布推出 Cosmos Reason 2 模型,專為「物理 AI(Physical AI)」與具身智能設計。該模型結合了先進的推理機制,使機器人與自主系統能更深層地理解物理規律、進行複雜的空間時間規劃。此模型的發布將大幅降低開發者構建具備物理常識與決策能力 AI 應用的門檻。
Google DeepMind 發表 2025 年度回顧,總結了今年在 8 大關鍵領域的研究突破。內容涵蓋 Gemini 多模態模型的演進、AlphaFold 3 帶來的生醫革命、AlphaProof 在數學推理的進展,以及 AI 在氣象預測、材料科學和機器人控制等領域的實際應用。這份回顧展示了 AI 如何從單純的語言助手,加速轉化為推動人類科學探索的強大引擎。
ServiceNow AI 發表最新研究「Apriel-H1」,聚焦於如何將大型推理模型(如具備強大 Chain-of-Thought 能力的模型)的推理能力,高效蒸餾至尺寸較小、運行成本更低的實用模型中。該研究指出了一個過去被忽視的「驚人關鍵」,能顯著提升小模型在複雜邏輯與數學推理任務上的表現,為企業級 AI 落地提供更具成本效益的解決方案。
Google DeepMind 宣布推出全新一代旗艦模型 Gemini 3。此版本在多模態理解、複雜邏輯推理及長文本處理能力上皆有顯著突破。Gemini 3 更加強調「主動式智能體(Agentic AI)」的實用化,能自主規劃並執行跨平台的複雜任務,並大幅降低了延遲與運算成本,為個人與企業應用帶來全新變革。
Google DeepMind 推出新一代 AI 代理 SIMA 2,全面導入 Gemini 模型的能力。SIMA 2 不僅能在多個 3D 虛擬與遊戲世界中執行任務,還具備更強的推理、語言理解與即時決策能力。這項技術展示了 AI 如何從單純的指令接收者,演變為能在複雜互動環境中與人類協同合作的智慧夥伴。
Vercel 宣布其 AI Gateway 正式支援 Moonshot AI(月之暗面)推出的 Kimi K2 Thinking 與 Kimi K2 Thinking Turbo 兩款推理模型。這讓開發者能透過統一的 Vercel AI Gateway 介面,輕鬆調用具備深度思考與推理能力的 Kimi 新一代模型,並享有 Vercel 提供的快取、監控與速率限制等管理功能。
Google DeepMind 宣布推出「AI for Math Initiative」計畫,旨在匯聚全球最頂尖的學術與研究機構,共同開創人工智慧在數學研究中的應用。該倡議將專注於利用 AI 工具協助數學家解決複雜難題、發現新定理,並推動數學科學的整體進步。這標誌著 AI 從輔助計算走向深度參與基礎科學探索的新里程碑。
Google DeepMind 宣布,搭載全新「Deep Think」思考技術的進階版 Gemini 模型,在國際奧林匹亞數學競賽(IMO)的測試中正式達到了金牌得主的水準。這項突破展示了 AI 在處理極具挑戰性的代數、組合數學、幾何和數論等複雜推理問題上的巨大進步。此成果不僅是 AI 數學推理能力的里程碑,也代表著強化學習與系統化思考(System 2 thinking)在大型語言模型上的成功應用。