Hugging Face BlogJul 11, 2024, 12:00 AM重要 80
How NuminaMath Won the 1st AIMO Progress Prize
NuminaMath 團隊分享如何基於 DeepSeek-Math 7B,透過兩階段微調與工具整合推理(TIR)奪得首屆 AIMO 進步獎,並宣佈完整開源。
首屆 AI 數學奧林匹亞(AIMO)進步獎由 NuminaMath 奪得,其在私有測試集上取得 29/50 的佳績。該模型基於 DeepSeek-Math-Base 7B,採用獨特的兩階段微調策略:第一階段混合鏈式思考(CoT)與工具整合推理(TIR),第二階段則針對奧林匹亞級難題進行拒絕採樣微調。團隊已將包含 86 萬條數據的 NuminaMath 數據集與模型權重完全開源,為開源 AI 數學推理領域樹立了新里程碑。
想看英文原文 / 完整內容?
前往 Hugging Face Blog 原文 →摘要由 AI 整理,以原文為準。