-
潘攻愚:从四个角度全面驳斥美方对DeepSeek的质疑和污蔑
【文/观察者网专栏作者 潘攻愚】
DeepSeek“小扣发大鸣”,半年多的时间,不但从LLM通用模型的V2迭代到了V3,而且进一步推出了主打推理能力的R1模型。从训练成本、架构调整和开源模式等多个维度技惊全球,引发了一股山呼海啸般的赞誉。春节期间大洋彼岸资本市场的大幅震荡以及开年后国内“DeepSeek概念股”的大涨,让这一现象持续成为坊间热议的焦点。
DeepSeek的成功,顺应了pre-training到推理的AI大模型的必然演化过程。DeepSeek的崛起为何是顺天应时之举?不妨先来看两段话。
去年2月下旬,英伟达CEO黄仁勋接受美国科技媒体Wired采访时说:“英伟达今天的业务可能是40%的推理和60%的训练,这是一件好事,因为这让你意识到AI终于成功了。如果英伟达的业务是90%的训练和10%的推理,你可以说AI仍处于早期研究阶段。”
去年12月,OpenAI的CFO Sarah Friar在接受科技媒体《信息》(The Information)采访时说:“OpenAI的ChatGPT Pro开放给C端用户的套餐每月200美元,实在是太便宜了,它合理的价格应该是每月2000美元。”进一步结合她上下文采访的言外之意,她主要是说OpenAI“心善”,秉承一股AI为大众平权服务的道义感,才没把价格搞得那么高。今天,他们这种伪善的画皮在DeepSeek R1开源模型面前彻底被撕下。
这两段话相当有代表性,一个指向AI技术应用的演进方向,一个则事关AI推训模式落地的商业化问题,这两个层面的问题相互缠绕,互为表里。
就在OpenAI牵头搞“星际之门”,将算力的Scale Law延伸到了民间资本市场和国家投资领域,试图把AI产业和美国国运绑定之时,DeepSeek对其做了一个釜底抽薪式的叙事消解。
众声喧哗之下,来自大洋彼岸的质疑,甚至是带有恶意性质的诋毁同样值得关注。
分析美国AI大模型行业某些头面人物带有惊慌失措心理的评论,可以进一步深化我们对DeepSeek到底真正打到了对方哪些痛处的认知。大洋彼岸的详细分析数据和质疑声音,以知名半导体咨询机构Semianalysis总裁Dylan Patel和Anthropic的CEO Dario Amodei为代表性,这两家的文章在中文互联网世界被翻译后大量转载。
Anthropic的CEO Dario Amodei
他们主要从GPU囤货、成本测算、非技术性营销、以及模型数据蒸馏不合规等四个角度,试图告诉公众DeepSeek的突破其实没那么“硬核”。
一、摇唇鼓舌DeepSeek囤货“敏感性”高端GPU
按照Semianaylsis的测算,“DeepSeek大致拥有10000张H800 GPU芯片、10000张H100 GPU芯片,以及大量H20 GPU芯片”。
Dario Amodei在长文中转述了Semianaylsis的测算,认为DeepSeek手上拥有的用于训练和推理的Hopper架构的英伟达GPU卡(阉割版和非阉割版都算在内)差不多有5万张,这个量和美国主要头部的AI模型训练机构如OpenAI、Deepmind等差距在两三倍左右,结合基于合成数据(synthetic data generation)和强化学习进行推理能力提升的后训练(post-training)方法,他认为DeepSeek本来就站在巨人的肩膀上,又用了巨量的GPU,才有了今天的成果。
为什么Dario Amodei要用Semianaylsis的数据给自己拉大旗扯虎皮呢?
因为Dario Amodei心中有一个所谓的AI训练成本的“摩尔定律法”——每一年大约能降三到四倍,如果用强化学习的方法进行推理架构调整,可以把成本降到六至八倍,但这个就是降成本的极限了。按照这种成本测算假说推断,DeepSeek有五万张Hopper卡。
那么,如果我们进一步追问,Semianaylsis认为DeepSeek手上有这么多高端GPU卡,他们是怎么算出来的?他们采用了一种类似归谬法的推理:Anthropic单单训练一个Claude 3.5 Sonnet的成本就高达数千万美元,如果DeepSeek有如此神之一手能强力降本,Anthropic何必煞费苦心去找亚马逊融资数亿呢?
有关Anthropic到底是怎么花费投资人的钱的问题,也许马斯克手下的DOGE(政府效率部)更有兴趣回答。相比微软、谷歌一派,代表云服务商亚马逊一派的Anthropic CEO按耐不住跳出来写长文的主要原因之一,是深刻觉察到在十万到百万级GPU基础上的生态进行推训,他们的Claude系列总价格是最高的,总性价比也是最低的。
DeepSeek合法拥有的H800,相比H100,主要是阉割了NVLink的通信带宽;H20虽然也是阉割版,单卡算力仅有H100的20%,但H20可以通过多卡堆叠模式,其HBM容量(96GB)甚至高于A100/H100(80GB)。换言之,H20的显存带宽可以让DeepSeek的Decode阶段每生成1个Token所需时间低于A100和H100。
DeepSeek把阉割版用出了禁运版所没有的功效,让Dario Amodei居然发出了应该对中国大陆进一步加强GPU管制的恶意言论,这也许才是他抨击DeepSeek的目的。
从话语体系上讲,Semianalysis用Anthropic缺乏公允性的AI模型训练成本反推DeepSeek有可能绕开管制,非法持有高端GPU,而Anthropic反过来用Semianalysis建立在沙堆之上的推论来论述DeepSeek在成本问题上并无过人之处,这其实是一个合谋式的循环论证。
- 原标题:从四个角度全面驳斥美方对DeepSeek的质疑和污蔑 本文仅代表作者个人观点。
- 责任编辑: 李昊 
-
我国成功发射卫星互联网低轨卫星
2025-02-11 19:20 航空航天 -
蹭热度?ai.com重定向至DeepSeek
2025-02-10 14:35 人工智能 -
中国半导体产业要长远发展,这个问题必须解决好
2025-02-10 13:57 心智观察所 -
“中国物理学研究领先世界,美国机构被挤出前十”
2025-02-09 09:14 科技前沿 -
撬开日本海关的口:日本半导体设备对华依赖度有多高?
2025-02-06 08:06 心智观察所 -
中国平台,集中上线
2025-02-04 21:12 -
“人造太阳”再创纪录,是中国式科研方法论又一次胜利
2025-02-04 13:05 心智观察所 -
“大洋一号”功勋船舶将升级改造
2025-02-02 15:35 -
“霸榜全球140个市场”,拉新最多的是…
2025-02-01 22:06 观察者头条 -
突破70多年来的传统认知!他们发现距地球16万公里的“太空合声”
2025-02-01 16:53 天文 -
中国光子毫米波雷达技术取得突破性进展
2025-01-31 22:54 科技前沿 -
果然,台当局又跳了出来
2025-01-31 22:01 台湾 -
英伟达平台上线DeepSeek
2025-01-31 18:18 -
阿斯麦CEO:DeepSeek,好消息
2025-01-30 09:34 -
20光年外,科学家又发现“超级地球”
2025-01-29 19:03 -
DeepSeek超越ChatGPT,登顶美国区免费APP榜单
2025-01-27 09:02 观网财经-科创 -
理解DeepSeek的中国式创新,要先回顾深度学习的历史
2025-01-27 08:03 心智观察所 -
探索宇宙线起源之谜再添“观天”利器
2025-01-21 20:09 天文 -
最大载重1.9吨,国产大型无人机首次实现量产交付
2025-01-20 22:12 中国精造 -
我国成功发射云遥一号37~40星等5颗卫星
2025-01-20 21:59 航空航天
相关推荐 -
普京访印:美国都在买,印度凭啥不能买? 评论 33
日本开发稀土担心中国干扰?日防相放话 评论 122
“美欧抢矿,遭殃的却是他们” 评论 13
美国又开炮欧盟:你们在“霸凌”美国军工! 评论 72
时代变了,“欧洲人迫切想要中国技术” 评论 205最新闻 Hot-
日本开发稀土担心中国干扰?日防相放话
-
“按下葫芦浮起瓢”,英伟达想重返中国市场又难了…
-
“特朗普高兴太早咯,中国把枪放进枪套,但枪还在手上”
-
又出狂言,“加墨不能成为中国出口中心…”
-
“美欧抢矿,遭殃的却是他们”
-
“今年就当广告时间,等英国接任后我们再回归”
-
美国又开炮欧盟:你们在“霸凌”美国军工!
-
“不要惊醒‘美洲豹’”
-
土耳其急了:别碰能源设施!
-
时代变了,“欧洲人迫切想要中国技术”
-
“原来特朗普对中国做这么多”,某些美国鹰派急眼了
-
17年来最低,“好感急剧恶化”
-
韩国入境系统标示“中国台湾”,民进党当局破防
-
“在美欧闻了一鼻子尾气,才反应过来:中国早没这味了”
-
中企在非遭800亿美元天价索赔,BBC老毛病又犯了
-
俄乌冲突后普京首次来访,印“外交钢丝”还能走多久?
-

观察员
上海市互联网违法与不良信息举报中心