-
心智观察所:掀开DeepSeek-V4的技术账本
【文/观察者网 心智观察所】
4月24日,DeepSeek正式发布并开源DeepSeek-V4系列预览版本,这是其继V3.2之后的新一代旗舰模型体系。这很可能意味着,从今年夏天开始,大模型赛道上最热闹的话题不再是谁的参数更大,而是谁能更聪明地花算力。
就在各家厂商还在为128K上下文窗口较劲的时候,DeepSeek悄悄把赛道拉到了一百万token。
DeepSeek-V4系列包含两款模型:V4-Pro(1.6万亿总参数,每次推理激活490亿)和V4-Flash(2840亿总参数,每次推理激活130亿),两者均原生支持一百万token上下文。更关键的是,在这个极端长度下,V4-Pro的推理计算量仅为上一代V3.2的27%,KV缓存占用仅为10%。换句话说,DeepSeek没有靠堆算力硬扛长上下文,而是用架构创新把成本打下来了。
心智观察所仔细阅读了这份长达58页的技术报告,发现该报告藏着的不仅是几个新模块的名字,而是一整套关于效率、开源与硬件生态的战略思考。
注意力机制的手术刀:CSA与HCA的精妙配合
DeepSeek-V4为什么能在百万token上做到如此低的计算开销?得先搞清楚传统注意力机制的痛点在哪里。标准的Transformer注意力,每个token都要和前面所有token做一次计算。上下文从8K扩到1M,计算量不是翻一百多倍那么简单,而是平方级增长。这道数学题摆在那里,任何模型都绕不过去。
DeepSeek的解法是设计了两种压缩注意力机制,然后让它们交替上场:
第一种叫压缩稀疏注意力(CSA),它先把每4个token的KV缓存合并成1个压缩条目,然后用一个闪电索引器快速筛选出最相关的少量压缩块,每个查询token只需要和这些精挑细选的块做注意力计算;
第二种叫重度压缩注意力(HCA),它的压缩率高达128倍,把大量token的信息浓缩成极少的条目,虽然信息粒度粗了,但胜在覆盖范围广,能捕捉全局性的语义线索。
这两种机制的分工非常清晰,CSA负责精准定位关键细节,HCA负责把握全局脉络。一个像是拿着放大镜找线索的侦探,一个像是站在山顶俯瞰全景的指挥官。两者交错部署在模型的各层中,形成互补。
效率提升的数字相当惊人。如果以主流的BF16 GQA8配置作为行业通用基准,V4系列在百万token场景下的KV缓存占用量只有这个基准的约2%。这不是百分比级别的优化,而是数量级上的变化。对于需要处理长文档、多文件分析、长链路Agent任务的应用场景来说,这意味着原本不可能的事情变成了工程上可落地的日常。
残差连接和优化器也动了大手术
架构层面的创新不止于注意力机制。DeepSeek-V4还对模型中两个看似不起眼但极其重要的基础组件做了升级。
首先是残差连接。传统Transformer中,每一层的输出会和输入做一个简单的加法,这就是残差连接。它的好处是让深层网络更容易训练,但问题也在于它太简单了,表达能力有限。此前的超连接(Hyper-Connections)研究尝试扩展残差通道的宽度来增强表达力,但在多层堆叠时总会出现数值爆炸的问题。
DeepSeek-V4采用的流形约束超连接(mHC)找到了一个优雅的解决方案:把残差映射矩阵约束在一个叫做双随机矩阵的数学流形上。通俗地说,就是给信号传播加了一个安全阀,确保信号在层间传递时既不会被无限放大,也不会被意外抵消,从根源上保证了训练的稳定性。
还有就是是优化器。V4系列的大部分参数不再使用业界标配的AdamW,而是换成了Muon优化器。Muon的核心操作是对梯度矩阵做近似正交化,通过一种叫Newton-Schulz迭代的数学方法让梯度的奇异值趋近于1。直观理解就是,传统优化器给每个参数独立调整步长,而Muon会考虑参数矩阵整体的结构信息来决定更新方向。实测效果是收敛更快、训练更稳,尤其在万亿参数规模的MoE模型训练中优势明显。
省下来的不只是电费
对于大模型的商业化落地,推理成本往往比训练成本更关键。一个模型训练一次就行,但推理要执行千千万万次。DeepSeek-V4在推理效率上的优化,直接影响的是每一次API调用的成本。
除了CSA和HCA在注意力层面带来的计算量骤降,V4还在精度体系上做了精细文章。MoE专家权重采用FP4量化感知训练,索引器的QK路径全程以FP4计算,KV缓存则采用混合精度存储:位置编码维度保留BF16确保精度,其余维度压缩至FP8。这种对不同部件精度敏感性的分别处理,说明团队对模型内部的信息流有相当深入的理解,而不是简单粗暴地全局降精度。
在MoE层的通信优化方面,V4提出了一套细粒度的专家波次调度方案。传统做法中,通信和计算是串行的,专家并行的效率被通信延迟严重拖累。V4的方案把专家分成多个小波次,每个波次内通信和计算高度并行,实测加速比达到1.5到1.73倍,在强化学习推理等极端场景下甚至接近2倍。这套方案已经作为MegaMoE开源发布。
更值得关注的是磁盘KV缓存的设计。在RAG和多轮对话等大量复用相同前缀的场景中,V4可以把压缩后的KV条目存储到磁盘上。当新请求命中已有前缀时,直接从磁盘读取缓存,跳过整个前缀的预填充阶段。这对商业部署的意义非常直接:用户侧首token延迟大幅降低,服务成本随之下降。
编程与Agent:开源模型首次与闭源巨头正面交锋
基准测试的数字有时候会让人审美疲劳,但DeepSeek-V4在编程能力和Agent能力上的表现,确实值得单独拿出来说。
在Codeforces竞技编程评测上,V4-Pro-Max拿到了3206的评分,超过了GPT-5.4的3168和Claude Opus 4.6的3052。这是开源模型在竞技编程领域第一次正面超越所有顶级闭源模型(如下图)。
Codeforces的评测方式是针对近几个月的全新赛题进行限时解题,数据污染的可能性很低,这个成绩含金量相当高。在LiveCodeBench-v6上,V4-Pro-Max也以93.5%的Pass@1居于首位。
Agent能力方面,V4-Pro在SWE-Verified上达到80.6%的解决率,与Claude Opus 4.6的80.8%几乎不分伯仲。在覆盖大量工具和MCP服务的Toolathlon评测中,V4-Pro以51.8分排名第一,说明它的工具调用能力不是在特定框架下调出来的,而是具备真实的泛化性。
在形式化数学推理这个被视为AI智能天花板的领域,V4通过结合非形式化推理与形式化验证的混合管线,在Putnam 2025全部120题上实现了满分。这个结果在数学界引起了不小的反响。
标签 心智观察所- 原标题:掀开DeepSeek-V4的技术账本 本文仅代表作者个人观点。
- 责任编辑: 周天 
-
颜宁院士:说这话的人多崇洋媚外啊
2026-04-27 08:10 -
我国成功发射一颗巴基斯坦卫星
2026-04-25 22:07 巴铁 -
2名巴基斯坦航天员已进入中国航天员科研训练中心
2026-04-24 16:19 航空航天 -
首次,我国科学家手搓“类球状闪电”!
2026-04-16 21:50 科技前沿 -
轻舟试验飞船已在轨完成多项关键技术验证
2026-04-15 17:08 航空航天 -
中国团队重要突破!将为芯片技术自主可控提供关键材料
2026-04-09 11:20 科技前沿 -
打破国外垄断,又一国产设备“弯道超车”
2026-04-09 09:05 -
我国科学家重要突破:两种全新常压镍基超导材料问世
2026-04-09 06:31 科技前沿 -
“人类从另一侧凝望”,阿尔忒弥斯2号发布月球“地落”照
2026-04-08 11:39 航空航天 -
美“阿耳忒弥斯2号”打破人类距离地球最远飞行纪录
2026-04-07 06:50 航空航天 -
全球首次实现!我国钠离子电池取得重大突破
2026-04-06 22:05 科技前沿 -
阿尔忒弥斯宇航员的太空首日:把厕所修好了
2026-04-03 08:50 航空航天 -
沙特能源企业家:发达国家是问题制造者,中国则推广技术
2026-03-30 17:46 能源战略 -
首次实现!中国攻克液氢燃料航空涡轮动力关键技术
2026-03-30 08:46 中国精造 -
重器越天堑!世界最大直径高铁盾构机“领航号”成功“上岸”
2026-03-29 18:09 中国精造 -
肿瘤治疗利器!我国首次实现医用级阿尔法同位素居里级量产
2026-03-28 15:12 科技前沿 -
我国成功发射四维高景二号05、06星
2026-03-26 08:58 航空航天 -
十破世界纪录!新型薄膜光伏领域获重要突破
2026-03-25 15:06 科技前沿 -
2025年度“中国科学十大进展”发布
2026-03-25 11:06 科技前沿 -
亚洲AI,已形成三个梯队
2026-03-24 18:24 博鳌论坛
相关推荐 -
再遭逼宫,斯塔默坚称:我将继续执政 评论 30
“特朗普求合作,中方在台湾问题上更有底气” 评论 51
背靠强大的祖国,香港的关键是要翻越“两座大山” 评论 21
美国又虚空造牌,中方已严正表态 评论 45最新闻 Hot-
欧洲喊“去风险”,德国企业却在加速押注中国
-
“欧盟深知在稀土上几乎没筹码,没见过中方如此自信”
-
“这并非偶然,大概率已获得阿联酋和以色列的默许”
-
为杜特尔特家族出头,他遭ICC通缉被追捕,被困参院大楼
-
打仗能源短缺,日本国民薯片包装要变“黑白遗像”
-
再遭逼宫,斯塔默坚称:我将继续执政
-
美国在格陵兰还不死心:新开3座基地,划为美国领土
-
“特朗普‘更认真考虑’重启对伊朗军事行动”
-
“特朗普求合作,中方在台湾问题上更有底气”
-
美企代表团更新:加了马斯克,没了黄仁勋
-
“特朗普对古巴无能狂怒:为啥他们还没垮台”
-
“可偏转弹丸!中国研发出鳄鱼结构装甲”
-
乌总统办公室前主任被控腐败,涉嫌参与洗钱
-
叛国!都叛国!特朗普气坏了,摔出一摞报道…
-
告别“从摇篮到坟墓”保障?“瑞典也许走过头了”
-
“停火那天,阿联酋曾秘密动武,袭击伊朗炼油厂”
-

观察员

上海市互联网违法与不良信息举报中心