賓州大學教授 Ethan Mollick 針對 GPT-5.5 發表評論。他指出,GPT-5.5 的出現再次證實了 AI 技術並未如外界預期般遭遇瓶頸,而是沿著陡峭的成長曲線繼續攀升。這款新模型在推理、任務執行與自主代理能力上展現了顯著的進步,為未來的自動化工作與人機協作揭開了全新序幕。
沃頓商學院教授 Ethan Mollick 撰文分析 AI 的現狀與未來。他指出,雖然基礎模型的純暴力縮放(Scaling)可能遇到瓶頸,但透過「推論時運算」(Inference-time compute)如 OpenAI o1/o3 和 Claude 3.7 Sonnet,AI 的推理能力正大幅躍進。我們正處於從「對話式 AI」轉向「自主 Agent」的關鍵節點,這將徹底重塑工作流程與組織架構。
隨著 AI 從單純的「聊天機器人」演進至具備主動執行能力的「代理人(Agents)」與深度思考的「推理模型(Reasoning Models)」,使用策略已大幅改變。本文整理了當前主流 AI(如 GPT、Claude、Gemini 及 DeepSeek)在寫作、程式開發、資料分析與自動化任務中的定位。讀者將能理解何時該用一般聊天、何時該啟動推理,以及如何佈署代理人來提升生產力。
Google DeepMind 正式推出 Gemini 3 Deep Think 深度推理模式。此版本專為應對現代科學、前沿研究與複雜工程挑戰而設計,代表了 Google 在 AI 推理技術上的最新突破。該模式著重於多步驟邏輯推理、數學與程式碼建構,旨在為科研人員與工程師提供更強大的決策與分析支援。
Google DeepMind 發文指出,Gemini Deep Think 在學術與科學研究中的影響力正快速增長。透過延伸思考時間(Thinking time)與深度推理,該模型在複雜數學證明、科學假設生成及程式碼編寫上展現顯著優勢。多篇研究論文證實,這種具備「系統二」慢思考能力的 AI 模型,正成為科學家與研究人員不可或缺的協作工具,有效縮短研究週期。
Google DeepMind 發表最新突破,旗下 Gemini 2.5 Deep Think 模型在國際大學生程式設計競賽(ICPC)世界總決賽中展現出金牌等級的表現。這項成就代表 AI 在抽象問題解決、複雜演算法設計與程式碼除錯能力上取得了巨大飛躍。該模型透過深度思考與自我修正機制,成功攻克了原本只有全球頂尖人類程式設計師才能解決的難題。
Hugging Face 宣布啟動 Open-R1 專案,目標是完全重現 DeepSeek-R1 的推理能力。該專案將開源所有訓練配方、資料集與模型權重,並利用 TRL 框架中的 GRPO 演算法進行強化學習。這項計畫將降低開發者構建高效推理模型的門檻,推動開源 AI 社群的推理模型民主化。
首屆 AI 數學奧林匹亞(AIMO)進步獎由 NuminaMath 奪得,其在私有測試集上取得 29/50 的佳績。該模型基於 DeepSeek-Math-Base 7B,採用獨特的兩階段微調策略:第一階段混合鏈式思考(CoT)與工具整合推理(TIR),第二階段則針對奧林匹亞級難題進行拒絕採樣微調。團隊已將包含 86 萬條數據的 NuminaMath 數據集與模型權重完全開源,為開源 AI 數學推理領域樹立了新里程碑。