-
心智观察所:掀开DeepSeek-V4的技术账本
【文/观察者网 心智观察所】
4月24日,DeepSeek正式发布并开源DeepSeek-V4系列预览版本,这是其继V3.2之后的新一代旗舰模型体系。这很可能意味着,从今年夏天开始,大模型赛道上最热闹的话题不再是谁的参数更大,而是谁能更聪明地花算力。
就在各家厂商还在为128K上下文窗口较劲的时候,DeepSeek悄悄把赛道拉到了一百万token。
DeepSeek-V4系列包含两款模型:V4-Pro(1.6万亿总参数,每次推理激活490亿)和V4-Flash(2840亿总参数,每次推理激活130亿),两者均原生支持一百万token上下文。更关键的是,在这个极端长度下,V4-Pro的推理计算量仅为上一代V3.2的27%,KV缓存占用仅为10%。换句话说,DeepSeek没有靠堆算力硬扛长上下文,而是用架构创新把成本打下来了。
心智观察所仔细阅读了这份长达58页的技术报告,发现该报告藏着的不仅是几个新模块的名字,而是一整套关于效率、开源与硬件生态的战略思考。
注意力机制的手术刀:CSA与HCA的精妙配合
DeepSeek-V4为什么能在百万token上做到如此低的计算开销?得先搞清楚传统注意力机制的痛点在哪里。标准的Transformer注意力,每个token都要和前面所有token做一次计算。上下文从8K扩到1M,计算量不是翻一百多倍那么简单,而是平方级增长。这道数学题摆在那里,任何模型都绕不过去。
DeepSeek的解法是设计了两种压缩注意力机制,然后让它们交替上场:
第一种叫压缩稀疏注意力(CSA),它先把每4个token的KV缓存合并成1个压缩条目,然后用一个闪电索引器快速筛选出最相关的少量压缩块,每个查询token只需要和这些精挑细选的块做注意力计算;
第二种叫重度压缩注意力(HCA),它的压缩率高达128倍,把大量token的信息浓缩成极少的条目,虽然信息粒度粗了,但胜在覆盖范围广,能捕捉全局性的语义线索。
这两种机制的分工非常清晰,CSA负责精准定位关键细节,HCA负责把握全局脉络。一个像是拿着放大镜找线索的侦探,一个像是站在山顶俯瞰全景的指挥官。两者交错部署在模型的各层中,形成互补。
效率提升的数字相当惊人。如果以主流的BF16 GQA8配置作为行业通用基准,V4系列在百万token场景下的KV缓存占用量只有这个基准的约2%。这不是百分比级别的优化,而是数量级上的变化。对于需要处理长文档、多文件分析、长链路Agent任务的应用场景来说,这意味着原本不可能的事情变成了工程上可落地的日常。
残差连接和优化器也动了大手术
架构层面的创新不止于注意力机制。DeepSeek-V4还对模型中两个看似不起眼但极其重要的基础组件做了升级。
首先是残差连接。传统Transformer中,每一层的输出会和输入做一个简单的加法,这就是残差连接。它的好处是让深层网络更容易训练,但问题也在于它太简单了,表达能力有限。此前的超连接(Hyper-Connections)研究尝试扩展残差通道的宽度来增强表达力,但在多层堆叠时总会出现数值爆炸的问题。
DeepSeek-V4采用的流形约束超连接(mHC)找到了一个优雅的解决方案:把残差映射矩阵约束在一个叫做双随机矩阵的数学流形上。通俗地说,就是给信号传播加了一个安全阀,确保信号在层间传递时既不会被无限放大,也不会被意外抵消,从根源上保证了训练的稳定性。
还有就是是优化器。V4系列的大部分参数不再使用业界标配的AdamW,而是换成了Muon优化器。Muon的核心操作是对梯度矩阵做近似正交化,通过一种叫Newton-Schulz迭代的数学方法让梯度的奇异值趋近于1。直观理解就是,传统优化器给每个参数独立调整步长,而Muon会考虑参数矩阵整体的结构信息来决定更新方向。实测效果是收敛更快、训练更稳,尤其在万亿参数规模的MoE模型训练中优势明显。
省下来的不只是电费
对于大模型的商业化落地,推理成本往往比训练成本更关键。一个模型训练一次就行,但推理要执行千千万万次。DeepSeek-V4在推理效率上的优化,直接影响的是每一次API调用的成本。
除了CSA和HCA在注意力层面带来的计算量骤降,V4还在精度体系上做了精细文章。MoE专家权重采用FP4量化感知训练,索引器的QK路径全程以FP4计算,KV缓存则采用混合精度存储:位置编码维度保留BF16确保精度,其余维度压缩至FP8。这种对不同部件精度敏感性的分别处理,说明团队对模型内部的信息流有相当深入的理解,而不是简单粗暴地全局降精度。
在MoE层的通信优化方面,V4提出了一套细粒度的专家波次调度方案。传统做法中,通信和计算是串行的,专家并行的效率被通信延迟严重拖累。V4的方案把专家分成多个小波次,每个波次内通信和计算高度并行,实测加速比达到1.5到1.73倍,在强化学习推理等极端场景下甚至接近2倍。这套方案已经作为MegaMoE开源发布。
更值得关注的是磁盘KV缓存的设计。在RAG和多轮对话等大量复用相同前缀的场景中,V4可以把压缩后的KV条目存储到磁盘上。当新请求命中已有前缀时,直接从磁盘读取缓存,跳过整个前缀的预填充阶段。这对商业部署的意义非常直接:用户侧首token延迟大幅降低,服务成本随之下降。
编程与Agent:开源模型首次与闭源巨头正面交锋
基准测试的数字有时候会让人审美疲劳,但DeepSeek-V4在编程能力和Agent能力上的表现,确实值得单独拿出来说。
在Codeforces竞技编程评测上,V4-Pro-Max拿到了3206的评分,超过了GPT-5.4的3168和Claude Opus 4.6的3052。这是开源模型在竞技编程领域第一次正面超越所有顶级闭源模型(如下图)。
Codeforces的评测方式是针对近几个月的全新赛题进行限时解题,数据污染的可能性很低,这个成绩含金量相当高。在LiveCodeBench-v6上,V4-Pro-Max也以93.5%的Pass@1居于首位。
Agent能力方面,V4-Pro在SWE-Verified上达到80.6%的解决率,与Claude Opus 4.6的80.8%几乎不分伯仲。在覆盖大量工具和MCP服务的Toolathlon评测中,V4-Pro以51.8分排名第一,说明它的工具调用能力不是在特定框架下调出来的,而是具备真实的泛化性。
在形式化数学推理这个被视为AI智能天花板的领域,V4通过结合非形式化推理与形式化验证的混合管线,在Putnam 2025全部120题上实现了满分。这个结果在数学界引起了不小的反响。
标签 心智观察所- 原标题:掀开DeepSeek-V4的技术账本 本文仅代表作者个人观点。
- 责任编辑: 周天 
-
颜宁院士:说这话的人多崇洋媚外啊
2026-04-27 08:10 -
我国成功发射一颗巴基斯坦卫星
2026-04-25 22:07 巴铁 -
2名巴基斯坦航天员已进入中国航天员科研训练中心
2026-04-24 16:19 航空航天 -
首次,我国科学家手搓“类球状闪电”!
2026-04-16 21:50 科技前沿 -
轻舟试验飞船已在轨完成多项关键技术验证
2026-04-15 17:08 航空航天 -
中国团队重要突破!将为芯片技术自主可控提供关键材料
2026-04-09 11:20 科技前沿 -
打破国外垄断,又一国产设备“弯道超车”
2026-04-09 09:05 -
我国科学家重要突破:两种全新常压镍基超导材料问世
2026-04-09 06:31 科技前沿 -
“人类从另一侧凝望”,阿尔忒弥斯2号发布月球“地落”照
2026-04-08 11:39 航空航天 -
美“阿耳忒弥斯2号”打破人类距离地球最远飞行纪录
2026-04-07 06:50 航空航天 -
全球首次实现!我国钠离子电池取得重大突破
2026-04-06 22:05 科技前沿 -
阿尔忒弥斯宇航员的太空首日:把厕所修好了
2026-04-03 08:50 航空航天 -
沙特能源企业家:发达国家是问题制造者,中国则推广技术
2026-03-30 17:46 能源战略 -
首次实现!中国攻克液氢燃料航空涡轮动力关键技术
2026-03-30 08:46 中国精造 -
重器越天堑!世界最大直径高铁盾构机“领航号”成功“上岸”
2026-03-29 18:09 中国精造 -
肿瘤治疗利器!我国首次实现医用级阿尔法同位素居里级量产
2026-03-28 15:12 科技前沿 -
我国成功发射四维高景二号05、06星
2026-03-26 08:58 航空航天 -
十破世界纪录!新型薄膜光伏领域获重要突破
2026-03-25 15:06 科技前沿 -
2025年度“中国科学十大进展”发布
2026-03-25 11:06 科技前沿 -
亚洲AI,已形成三个梯队
2026-03-24 18:24 博鳌论坛
相关推荐 -
“不认中国临床数据,行不通的” 评论 7
“下一个要退的是哈萨克斯坦?” 评论 42
航油告急,全球慌神!中国科学家提出解决方案 评论 192
“挡不住!中国车兵临美墨边境,美国车企夜不能寐” 评论 117
美国向联合国开条件:要我的,就不能要中国的 评论 235最新闻 Hot-
英国唱反调:不认中国临床数据,行不通的
-
“日本站错队了,应该联中抗美”
-
“若罪名成立,终身不得参政”
-
“下一个要退的是哈萨克斯坦?”
-
又一非洲国家拒绝美国
-
不到一年,她撂挑子不干了
-
日企又演上了,“买太多中国货救急,不安”
-
特朗普发了张图,威胁伊朗“放聪明点”
-
竞争不过又丢脸到别国,“无力阻止中企中标欧盟资助项目”
-
新西兰要立“慰安妇”雕像,被日本拦下
-
航油告急,全球慌神!中国科学家提出解决方案
-
英王调侃特朗普:早在1814年,我们就曾尝试对白宫搞“房产改造”
-
“尬出天际”,特朗普当着英国国王面开和梅拉尼娅的夫妻玩笑
-
欧盟又内讧,最高贸易官员不干了
-
申请全被否,不让斯洛伐克总理飞去莫斯科
-
美共和党高层罕见唱反调:1.5万亿,说说看怎么花?
-

观察员
上海市互联网违法与不良信息举报中心