DeepSeek上新：开源模型首达IMO金牌水平，AI推理告别“死记硬背”

APP下载

扫一扫

下载观察者APP

DeepSeek上新：开源模型首达IMO金牌水平，AI推理告别“死记硬背”
- 陈济深
分享到：

2025-11-28 15:03:38 字号：A- A A+ 来源：观察者网

（文/陈济深编辑/张广凯）

在OpenAI发布GPT-5.1、谷歌推出Gemini 3系列的背景下，国内AI独角兽DeepSeek虽然迟迟未能带来基座模型的大更新，但也于本周三晚间低调发布了其最新的技术成果DeepSeek-Math-V2。

据官方披露的技术报告显示，DeepSeek-Math-V2拥有685B参数量，专注于提升大语言模型的数学推理与定理证明能力。在多项高难度数学竞赛基准中，该模型交出了一份极具冲击力的成绩单。

首先是顶尖竞赛表现，在2025年国际数学奥林匹克竞赛（IMO 2025）和2024年中国数学奥林匹克竞赛（CMO 2024）中，Math-V2均达到了金牌水平。特别是在被称为“数学界炼狱”的普特南（Putnam 2024）数学竞赛中，通过扩展测试计算（Test-time Compute），该模型取得了118分（满分120分）的近乎满分成绩，远超人类选手约90分的历史最高分记录。

其次是基准测试对比，在IMO-ProofBench基准测试的基础集（Basic）上，Math-V2得分接近99%，大幅领先谷歌旗下Gemini DeepThink (IMO Gold) 的89%。

在难度更高的进阶集（Advanced）上，Math-V2得分61.9%，虽然略低于Gemini DeepThink的65.7%，但作为开源模型，其性能已无限接近闭源商用模型的顶尖水平。

此外，团队在论文中透露，在自主构建的91个CNML（中国国家数学实验室）级别问题测试中，Math-V2在代数、几何、数论、组合学和不等式等所有类别中，均超越了GPT-5-Thinking-High和Gemini 2.5-Pro的表现。

从“做题机器”到“严谨数学家”

DeepSeek此次发布的时间点颇为耐人寻味。就在模型开源前不到24小时，前OpenAI首席科学家、AI教父Ilya Sutskever在一场访谈中直言，当前的AI模型更像是一个只会“死记硬背”的做题机器。DeepSeek Math-V2的发布仿佛是一次跨越时空的回应，其核心技术革新正是为了解决Ilya所担忧的“推理假象”问题，展现出一种不再满足于单纯结果正确的技术自觉。

传统的AI训练模式往往陷入“结果导向”的陷阱，即只要最终答案正确就给予模型奖励（Reward）。这种机制容易导致AI产生投机行为，为了获取奖励而猜测答案，即便中间逻辑混乱甚至错误。DeepSeek在技术论文中一针见血地指出，正确的答案并不保证正确的推理。为了根除这种“混子”行为，Math-V2采取了严苛的“死磕过程”策略。模型必须展示清晰、严谨的分步推导过程，只要中间步骤出现逻辑断裂，即便最终结果正确，系统也不会给予正向反馈。这一转变逼迫AI必须真正理解题目逻辑，而非依赖概率上的运气。

为了精准评估这些复杂的推理步骤，DeepSeek独创了一套多层级的“元验证”（Meta-Verification）机制。在以往的训练中，给AI的解题步骤打分是一项极具挑战的任务，单一的AI评判者也容易看走眼。为此，团队设计了一种类似“套娃”的监督架构：在AI“学生”做题、AI“老师”批改的基础上，引入了更高层级的“校长”角色来审查判卷的合理性。如果“老师”出现误判，“校长”会进行纠正。这种层层嵌套的监督体系，直接将评分系统的置信度从0.85提升至0.96，极大地保证了训练数据的质量。

更引人注目的是，Math-V2展现出了类似人类“三省吾身”的自我反思能力。在处理高难度定理证明时，模型不再是一路狂奔直达终点，而是像一位严谨的数学家一样，在推理过程中通过测试时间计算（Test-time Compute）进行停顿和自省。一旦发现逻辑漏洞，模型会自主推翻重写，直到逻辑链条无懈可击。这种从盲目计算向深思熟虑的进化，表明通往超级智能的路径并非只有算力的堆叠，更需要这种懂得“回头看”的智慧。

开源生态的强力反击

DeepSeek Math-V2的发布在海外开发者社区引发了强烈反响，被舆论称为“鲸鱼回归（The Whale is back）”。市场分析人士认为，DeepSeek以10个百分点的优势在基础基准上击败谷歌获奖模型，打破了顶级推理模型长期被闭源巨头垄断的局面。

有资深算法工程师对观察者网表示：“DeepSeek验证了‘自验证推理路径’的可行性。数学推理能力是代码生成、科学计算等任务的基石。行业普遍推测，DeepSeek极有可能将这一逻辑验证能力迁移至编程模型（Coding），届时将对现有的代码辅助工具市场产生巨大冲击。”

目前，全球AI大模型正处于从“文本生成”向“逻辑推理”进化的关键窗口期。DeepSeek此次“亮剑”，不仅证明了国产模型在高端算法领域的竞争力，也为开源社区提供了一条清晰的技术演进路线——即通过构建严谨的验证机制，而非单纯堆砌算力，来实现机器智能的质变。

目前DeepSeek新模型的代码与权重已在Hugging Face及GitHub平台完全开源，行业期待其后续在通用旗舰模型上的进一步动作。
|

举报
- 违反法律法规
- 垃圾信息、广告
- 色情、淫秽信息
- 人身攻击
- 谣言、不实信息
- 冒充，冒用信息
- 破坏社区秩序
- 其他
- 涉未成年人有害信息
观察者网举报制度规范
确定取消
标签
- 责任编辑: 陈济深
- AI眼镜：谷歌画饼10年，夸克能否在中国引领破局？
  
  2025-11-28 11:41 观网财经-科创
- 董秘跟在董事长之后也被留置，“分红大户”富森美的麻烦有点大
  
  2025-11-28 08:56 上市公司
- 摩尔线程超300万元新股遭弃购
  
  2025-11-28 07:05 产经科创
- 《鸿蒙星光盛典》延迟举办
  
  2025-11-28 07:01 观网财经-科创
- 鸿蒙智行：识别到网上大量集中攻击，已充分收集证据
  
  2025-11-27 21:40 观网财经-科创
- Mate80不支持系统变更，华为：鸿蒙6已满足绝大多数场景
  
  2025-11-27 21:38 产经科创
- 承保宏福苑相关保险，太平香港：能赔快赔、应赔尽赔
  
  2025-11-27 20:54
- 阿里巴巴、马云支援香港火灾救援，共捐赠5000万港元
  
  2025-11-27 18:26 观网财经-互联网
- 国家发改委回应具身智能泡沫
  
  2025-11-27 18:20 产经科创
- 深铁“输血”额度将尽，万科拟展期20亿境内债导致股债双杀
  
  2025-11-27 17:54 观网财经-房产
- 驰援香港大火，内地企业在行动
  
  2025-11-27 17:41 观网财经-互联网
- 彪马出售案波澜再起，传安踏李宁为潜在买家
  
  2025-11-27 17:14 观网财经-消费
- 156星组网！太空碰撞风险加剧，太空感知星座计划发布
  
  2025-11-27 15:20 观网财经-互联网
- 许思敏已接任娃哈哈集团董事长，宗馥莉此前辞职
  
  2025-11-27 14:44 观网财经-消费
- “共享按摩椅第一股”乐摩科技正式招股，去年起利润已在下滑
  
  2025-11-27 13:11 产经 A股/港股/美股
- 华杉未在通牒期限内道歉，罗永浩确认将公布录音
  
  2025-11-27 13:01 产经热点关注
- 智能早报丨商务部就安世半导体敦促荷方；台积电指控前高管泄密
  
  2025-11-27 09:56 产经热点关注
- 金龙鱼“应战”了
  
  2025-11-26 21:22 观网财经-消费
- 华为Mate 80首发的700MHz无网应急通信功能是什么？
  
  2025-11-26 18:36 观网财经-科创
- 用AI取代人？美国PC巨头裁员6000人
  
  2025-11-26 16:55 产经科创
搜索

   观察者头条查看全部

2年变4年，贝森特还嘴硬：每9个月就有质的飞跃评论 17

针对中国，美欧合伙签了评论 91

首次拉清单，“中方忍不了欧盟了” 评论 157

鲸鱼回来了！“差距再缩小，中国芯片的关键里程碑” 评论 149

“西班牙的北约资格，英国的马岛主权声索，都要敲打” 评论 119

   风闻 · 24小时最热查看全部

   最新视频查看全部
最新闻 Hot
快讯

DeepSeek上新：开源模型首达IMO金牌水平，AI推理告别“死记硬背”

AI眼镜：谷歌画饼10年，夸克能否在中国引领破局？

董秘跟在董事长之后也被留置，“分红大户”富森美的麻烦有点大

摩尔线程超300万元新股遭弃购

《鸿蒙星光盛典》延迟举办

鸿蒙智行：识别到网上大量集中攻击，已充分收集证据

Mate80不支持系统变更，华为：鸿蒙6已满足绝大多数场景

承保宏福苑相关保险，太平香港：能赔快赔、应赔尽赔

阿里巴巴、马云支援香港火灾救援，共捐赠5000万港元

国家发改委回应具身智能泡沫

深铁“输血”额度将尽，万科拟展期20亿境内债导致股债双杀

驰援香港大火，内地企业在行动

彪马出售案波澜再起，传安踏李宁为潜在买家

156星组网！太空碰撞风险加剧，太空感知星座计划发布

许思敏已接任娃哈哈集团董事长，宗馥莉此前辞职

“共享按摩椅第一股”乐摩科技正式招股，去年起利润已在下滑

华杉未在通牒期限内道歉，罗永浩确认将公布录音

智能早报丨商务部就安世半导体敦促荷方；台积电指控前高管泄密

金龙鱼“应战”了

华为Mate 80首发的700MHz无网应急通信功能是什么？

用AI取代人？美国PC巨头裁员6000人

何时摆脱对华稀土依赖？贝森特悄悄改口

赫格塞思呵斥：美国可没那么需要霍尔木兹海峡，欧洲少空谈多干事

针对中国，美欧合伙签了

“赫格塞思的五角大楼奉行‘贱女孩’政治，如同高中生胡闹”

“最长断粮17天”，乌克兰前线士兵骨瘦如柴照片遭曝光

保就业反成威胁？中企收购破产化工厂遭欧美业界无端指责

首次拉清单，“中方忍不了欧盟了”

美第三艘航母也到了，“20年来空前兵力”

欧盟撤销对中国两家金融机构制裁，中方取消反制措施

鲸鱼回来了！“差距再缩小，中国芯片的关键里程碑”

“高度赞赏中方的领导作用，投入了真金白银”

“如果美伊谈判破裂，美军准备打击霍尔木兹海峡”

以色列总理证实自己患癌：治好了

太好用…民进党当局被大陆APP吓坏了，郑丽文发声

美专家想搞波狠的，“中国只落后7个月”

“西班牙的北约资格，英国的马岛主权声索，都要敲打”