Google DeepMind 宣布推出「AI for Math Initiative」計畫,旨在匯聚全球最頂尖的學術與研究機構,共同開創人工智慧在數學研究中的應用。該倡議將專注於利用 AI 工具協助數學家解決複雜難題、發現新定理,並推動數學科學的整體進步。這標誌著 AI 從輔助計算走向深度參與基礎科學探索的新里程碑。
Google DeepMind 宣布,搭載全新「Deep Think」思考技術的進階版 Gemini 模型,在國際奧林匹亞數學競賽(IMO)的測試中正式達到了金牌得主的水準。這項突破展示了 AI 在處理極具挑戰性的代數、組合數學、幾何和數論等複雜推理問題上的巨大進步。此成果不僅是 AI 數學推理能力的里程碑,也代表著強化學習與系統化思考(System 2 thinking)在大型語言模型上的成功應用。
Google 正式在 Gemini 應用程式中為 Google AI Ultra 訂閱者推出「Deep Think」深度思考功能。此外,Google 也向特定的數學家開放了曾參加國際數學奧林匹亞(IMO)競賽的 Gemini 2.5 Deep Think 完整版模型,讓專業人士能體驗其強大的數學推理能力。
Hugging Face 的 AI-MO(AI 數學奧林匹亞)團隊發表全新項目 Kimina-Prover-RL,專注於自動定理證明(ATP)。該項目透過強化學習(RL)引導模型在 Lean 等形式化環境中進行證明搜尋,是開源社群追趕 DeepMind AlphaProof 的重要里程碑,為複雜數學推理與形式化驗證提供了可重現的 RL 訓練框架與模型。
Hugging Face 的 AI-MO 團隊發表 Kimina-Prover,這是一項針對大型形式化推理模型的創新研究。該系統在推理階段(Test-time)引入強化學習搜尋機制,讓模型在面對複雜數學證明時能動態探索與自我修正。透過與形式化證明工具互動,Kimina-Prover 顯著提升了自動定理證明的成功率,為開源數學推理 AI 帶來重大突破。
Hugging Face 宣布在 Open LLM Leaderboard 中引入全新開源工具 Math-Verify。過去的數學評測常因模型輸出格式與標準答案不完全一致(如分數與小數)而導致誤判。Math-Verify 透過強大的數學表達式解析與等價性檢查,修正了這些評分偏差,讓開源模型的數學推理能力得到更真實的呈現。
首屆 AI 數學奧林匹亞(AIMO)進步獎由 NuminaMath 奪得,其在私有測試集上取得 29/50 的佳績。該模型基於 DeepSeek-Math-Base 7B,採用獨特的兩階段微調策略:第一階段混合鏈式思考(CoT)與工具整合推理(TIR),第二階段則針對奧林匹亞級難題進行拒絕採樣微調。團隊已將包含 86 萬條數據的 NuminaMath 數據集與模型權重完全開源,為開源 AI 數學推理領域樹立了新里程碑。