-
DeepSeek上新:开源模型首达IMO金牌水平,AI推理告别“死记硬背”
(文/陈济深 编辑/张广凯)
在OpenAI发布GPT-5.1、谷歌推出Gemini 3系列的背景下,国内AI独角兽DeepSeek虽然迟迟未能带来基座模型的大更新,但也于本周三晚间低调发布了其最新的技术成果DeepSeek-Math-V2。
据官方披露的技术报告显示,DeepSeek-Math-V2拥有685B参数量,专注于提升大语言模型的数学推理与定理证明能力。在多项高难度数学竞赛基准中,该模型交出了一份极具冲击力的成绩单。
首先是顶尖竞赛表现,在2025年国际数学奥林匹克竞赛(IMO 2025)和2024年中国数学奥林匹克竞赛(CMO 2024)中,Math-V2均达到了金牌水平。特别是在被称为“数学界炼狱”的普特南(Putnam 2024)数学竞赛中,通过扩展测试计算(Test-time Compute),该模型取得了118分(满分120分)的近乎满分成绩,远超人类选手约90分的历史最高分记录。
其次是基准测试对比,在IMO-ProofBench基准测试的基础集(Basic)上,Math-V2得分接近99%,大幅领先谷歌旗下Gemini DeepThink (IMO Gold) 的89%。
在难度更高的进阶集(Advanced)上,Math-V2得分61.9%,虽然略低于Gemini DeepThink的65.7%,但作为开源模型,其性能已无限接近闭源商用模型的顶尖水平。
此外,团队在论文中透露,在自主构建的91个CNML(中国国家数学实验室)级别问题测试中,Math-V2在代数、几何、数论、组合学和不等式等所有类别中,均超越了GPT-5-Thinking-High和Gemini 2.5-Pro的表现。
从“做题机器”到“严谨数学家”
DeepSeek此次发布的时间点颇为耐人寻味。就在模型开源前不到24小时,前OpenAI首席科学家、AI教父Ilya Sutskever在一场访谈中直言,当前的AI模型更像是一个只会“死记硬背”的做题机器。DeepSeek Math-V2的发布仿佛是一次跨越时空的回应,其核心技术革新正是为了解决Ilya所担忧的“推理假象”问题,展现出一种不再满足于单纯结果正确的技术自觉。
传统的AI训练模式往往陷入“结果导向”的陷阱,即只要最终答案正确就给予模型奖励(Reward)。这种机制容易导致AI产生投机行为,为了获取奖励而猜测答案,即便中间逻辑混乱甚至错误。DeepSeek在技术论文中一针见血地指出,正确的答案并不保证正确的推理。为了根除这种“混子”行为,Math-V2采取了严苛的“死磕过程”策略。模型必须展示清晰、严谨的分步推导过程,只要中间步骤出现逻辑断裂,即便最终结果正确,系统也不会给予正向反馈。这一转变逼迫AI必须真正理解题目逻辑,而非依赖概率上的运气。
为了精准评估这些复杂的推理步骤,DeepSeek独创了一套多层级的“元验证”(Meta-Verification)机制。在以往的训练中,给AI的解题步骤打分是一项极具挑战的任务,单一的AI评判者也容易看走眼。为此,团队设计了一种类似“套娃”的监督架构:在AI“学生”做题、AI“老师”批改的基础上,引入了更高层级的“校长”角色来审查判卷的合理性。如果“老师”出现误判,“校长”会进行纠正。这种层层嵌套的监督体系,直接将评分系统的置信度从0.85提升至0.96,极大地保证了训练数据的质量。
更引人注目的是,Math-V2展现出了类似人类“三省吾身”的自我反思能力。在处理高难度定理证明时,模型不再是一路狂奔直达终点,而是像一位严谨的数学家一样,在推理过程中通过测试时间计算(Test-time Compute)进行停顿和自省。一旦发现逻辑漏洞,模型会自主推翻重写,直到逻辑链条无懈可击。这种从盲目计算向深思熟虑的进化,表明通往超级智能的路径并非只有算力的堆叠,更需要这种懂得“回头看”的智慧。
开源生态的强力反击
DeepSeek Math-V2的发布在海外开发者社区引发了强烈反响,被舆论称为“鲸鱼回归(The Whale is back)”。市场分析人士认为,DeepSeek以10个百分点的优势在基础基准上击败谷歌获奖模型,打破了顶级推理模型长期被闭源巨头垄断的局面。
有资深算法工程师对观察者网表示:“DeepSeek验证了‘自验证推理路径’的可行性。数学推理能力是代码生成、科学计算等任务的基石。行业普遍推测,DeepSeek极有可能将这一逻辑验证能力迁移至编程模型(Coding),届时将对现有的代码辅助工具市场产生巨大冲击。”
目前,全球AI大模型正处于从“文本生成”向“逻辑推理”进化的关键窗口期。DeepSeek此次“亮剑”,不仅证明了国产模型在高端算法领域的竞争力,也为开源社区提供了一条清晰的技术演进路线——即通过构建严谨的验证机制,而非单纯堆砌算力,来实现机器智能的质变。
目前DeepSeek新模型的代码与权重已在Hugging Face及GitHub平台完全开源,行业期待其后续在通用旗舰模型上的进一步动作。
- 责任编辑: 陈济深 
-
AI眼镜:谷歌画饼10年,夸克能否在中国引领破局?
2025-11-28 11:41 观网财经-科创 -
董秘跟在董事长之后也被留置,“分红大户”富森美的麻烦有点大
2025-11-28 08:56 上市公司 -
摩尔线程超300万元新股遭弃购
2025-11-28 07:05 产经 科创 -
《鸿蒙星光盛典》延迟举办
2025-11-28 07:01 观网财经-科创 -
鸿蒙智行:识别到网上大量集中攻击,已充分收集证据
2025-11-27 21:40 观网财经-科创 -
Mate80不支持系统变更,华为:鸿蒙6已满足绝大多数场景
2025-11-27 21:38 产经 科创 -
承保宏福苑相关保险,太平香港:能赔快赔、应赔尽赔
2025-11-27 20:54 -
阿里巴巴、马云支援香港火灾救援,共捐赠5000万港元
2025-11-27 18:26 观网财经-互联网 -
国家发改委回应具身智能泡沫
2025-11-27 18:20 产经 科创 -
深铁“输血”额度将尽,万科拟展期20亿境内债导致股债双杀
2025-11-27 17:54 观网财经-房产 -
驰援香港大火,内地企业在行动
2025-11-27 17:41 观网财经-互联网 -
彪马出售案波澜再起,传安踏李宁为潜在买家
2025-11-27 17:14 观网财经-消费 -
156星组网!太空碰撞风险加剧,太空感知星座计划发布
2025-11-27 15:20 观网财经-互联网 -
许思敏已接任娃哈哈集团董事长,宗馥莉此前辞职
2025-11-27 14:44 观网财经-消费 -
“共享按摩椅第一股”乐摩科技正式招股,去年起利润已在下滑
2025-11-27 13:11 产经 A股/港股/美股 -
华杉未在通牒期限内道歉,罗永浩确认将公布录音
2025-11-27 13:01 产经 热点关注 -
智能早报丨商务部就安世半导体敦促荷方;台积电指控前高管泄密
2025-11-27 09:56 产经 热点关注 -
-
华为Mate 80首发的700MHz无网应急通信功能是什么?
2025-11-26 18:36 观网财经-科创 -
用AI取代人?美国PC巨头裁员6000人
2025-11-26 16:55 产经 科创
相关推荐 -
普京访印:美国都在买,印度凭啥不能买? 评论 1
日本开发稀土担心中国干扰?日防相放话 评论 96
“美欧抢矿,遭殃的却是他们” 评论 10
美国又开炮欧盟:你们在“霸凌”美国军工! 评论 68
时代变了,“欧洲人迫切想要中国技术” 评论 202最新闻 Hot-
日本开发稀土担心中国干扰?日防相放话
-
“按下葫芦浮起瓢”,英伟达想重返中国市场又难了…
-
“特朗普高兴太早咯,中国把枪放进枪套,但枪还在手上”
-
又出狂言,“加墨不能成为中国出口中心…”
-
“美欧抢矿,遭殃的却是他们”
-
“今年就当广告时间,等英国接任后我们再回归”
-
美国又开炮欧盟:你们在“霸凌”美国军工!
-
“不要惊醒‘美洲豹’”
-
土耳其急了:别碰能源设施!
-
时代变了,“欧洲人迫切想要中国技术”
-
“原来特朗普对中国做这么多”,某些美国鹰派急眼了
-
17年来最低,“好感急剧恶化”
-
韩国入境系统标示“中国台湾”,民进党当局破防
-
“在美欧闻了一鼻子尾气,才反应过来:中国早没这味了”
-
中企在非遭800亿美元天价索赔,BBC老毛病又犯了
-
俄乌冲突后普京首次来访,印“外交钢丝”还能走多久?
-

观察员
上海市互联网违法与不良信息举报中心