-
DeepSeek首度公开R1模型训练成本仅为29.4万美元,“美国同行开始质疑自己的战略”
【文/观察者网 王一】DeepSeek今年年初以高性价比、高性能、开源驱动等特点惊艳了世界。其团队近日在英国《自然》杂志发表论文首次披露,DeepSeek-R1模型的训练成本仅为29.4万美元,构建基础大语言模型也只花费了约600万美元,这一成本已远远低于美国同行透露的数字,而那还只是美国公司公布出来的大概成本。
英国路透社9月18日指出,DeepSeek的成本远低于美国竞争对手此前透露的数字,这一信息可能会再次引发外界围绕中国在全球人工智能(AI)领域地位的讨论。印度新闻网站“Devdiscourse”19日也称,DeepSeek首次提供成本数据,引发了美国公司对自己战略的质疑。
美国有线电视新闻网(CNN)、美国彭博社等美媒19日都对DeepSeek的29.4万美元训练成本感到惊讶。美国消费者新闻与商业频道(CNBC)评价说,考虑到OpenAI花了多少钱,DeepSeek的成本简直“惊人(astonishing)”,他们的模型已经推翻了只有拥有最先进、最快芯片的国家才能在AI竞赛中占据主导地位这一假设,现在他们甚至用数字对此进行了量化。
17日,《自然》杂志刊登了由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1推理模型研究论文。与今年1月发布DeepSeek-R1时的初版论文相比,最新的论文披露了更多模型训练的细节,也标志着该模型成为全球首个经过同行评审的主流大语言模型。
最新的论文披露,DeepSeek-R1模型使用了512块英伟达H800芯片,训练成本仅为29.4万美元。
路透社称,今年1月的早期论文并未包含相关信息。大型语言模型的训练成本通常是指,用高性能芯片集群处理海量文本和代码所产生的巨额费用。OpenAI首席执行官萨姆·奥尔特曼2023年曾透露,基础模型训练成本“远超”1亿美元,但他的公司从未公布过具体的数据。
当期《自然》杂志封面
该论文还对之前美国官员的一些毫无根据的质疑做出了回应。为打压中国AI发展,美国政府2022年就禁止英伟达向中国出口具备先进性能的H100和A100芯片。DeepSeek的AI大模型公布后,美国官员不相信中企可以用被“阉割”过的、英伟达专为中国市场设计的H800芯片训练出如此高性能的AI模型。
于是,今年6月,美国官员污称,DeepSeek在美国出口管制后违规获取了“大量” H100芯片并将其用于大模型训练。英伟达当时回应称,DeepSeek所使用的是合法采购的H800芯片,而非H100芯片。
在《自然》论文的补充材料中,DeepSeek首次承认其确实拥有A100芯片,称曾在研发前期使用这些芯片“为较小模型的实验做准备”,但在这之后,R1模型在512块H800芯片集群上进行了总计80个小时的训练。
DeepSeek还在论文中首次间接回应了今年1月来自白宫高级顾问和部分美国AI业内人士的指控——他们声称DeepSeek通过“蒸馏”技术“违规复制”OpenAI产品功能,并宣称已经发现“证据”。但此后,这些所谓的“证据”从未被公开。
蒸馏的理论核心是,让一个庞大且复杂的预训练AI模型充当“教师”,来训练一个较小的“学生模型”,后者从“教师模型”学习知识,以获得类似性能,但计算成本更低。不少专家表示,蒸馏在AI业内是一种常见的做法,但若涉及直接复制闭源专有模型的输出结构或参数,可能构成侵权。
DeepSeek一直为蒸馏技术辩护,认为该方法不仅能提升模型性能,还能显著降低训练和运行成本,从而扩大AI技术的普及范围。今年1月,该公司就提过,他们使用了美国科技公司Meta的开源AI模型Llama来构建其模型的部分精简版本。
在9月17日的论文中,DeepSeek表示,其V3模型的训练数据来源于网络爬取,其中包含“大量由OpenAI模型生成的回答,这可能会导致基础模型间接从其他强大模型中获得知识”。不过,DeepSeek强调这并非刻意为之,而是无意中的结果。
参与审阅该论文的Hugging Face机器学习工程师路易斯·汤斯顿(Lewis Tunstall)认为DeepSeek的解释有道理,其他实验室后来用类似的方法成功复制了R1模型的效果,这表明其他AI模型不需要所谓来自OpenAI的秘密数据就可以获得极高的推理能力。
科技咨询网站“Tech Space 2.0”也分析称,DeepSeek的数据策略是使用最大量的免费数据进行预训练,并巧妙使用自己生成的数据进行微调,只在计算上花钱,这种节俭的策略是其他公司目前正在深入研究的模板。
该网站指出,DeepSeek-R1在同类产品中脱颖而出,是因为他以极低的成本实现了最先进的成果。OpenAI的GPT-4和谷歌的AI模型“双子座(Gemini)”在某些方面仍然处于领先地位且享有强大的企业支持,但R1以一种此前从未见过的方式实现了“高端AI的民主化”——开放、复制成本相对低廉、高度注重效率。Meta的Llama2和法国科技初创企业米斯特拉尔AI公司(Mistral AI)的模型都秉承开放理念,但R1通过实现顶级性能将这一理念推向了新的高度。
“Tech Space 2.0”总结道:“这些比较强调了一个关键点:AI竞争不再仅仅关乎谁拥有最多的图形处理器(GPU),现在还关乎谁能用更少的资源实现更多的目标。从这个角度来看,DeepSeek已经改变了游戏规则。”
本文系观察者网独家稿件,未经授权,不得转载。
- 责任编辑: 赖家琪 
-
越南最高领导层“扩员”了
2025-09-19 18:35 -
九一八当天,中国学者敦促日方直面历史,不要玩概念模糊
2025-09-19 16:14 -
特朗普碰瓷,中方回应
2025-09-19 15:54 -
签了!“中国发动机替代德国产品”
2025-09-19 15:53 -
中国货轮将试航北极航道,外交部回应
2025-09-19 15:53 -
“对农民来说,无异于千刀万剐!好好和中国谈吧”
2025-09-19 15:37 中美关系 -
中美元首今天将通话?外交部回应
2025-09-19 15:31 中美关系 -
英军情六处要用暗网招间谍,重点瞄准...
2025-09-19 15:28 不列颠 -
印媒越吹越离谱:阵风领先歼-35A...
2025-09-19 14:44 印度惊奇 -
中美高层本月频繁互动,什么信号?
2025-09-19 14:29 中美关系 -
白宫AI顾问急了:这正中华为下怀,居心何在?
2025-09-19 14:23 中美关系 -
日本空自一架搜救机降落时冲出跑道,暂无人员伤亡
2025-09-19 13:48 日本 -
在缅北修建租用14个园区,诈骗数额11亿,徐发启犯罪集团案一审开庭
2025-09-19 13:36 打击网络诈骗 -
针对个别“反华”集会,韩总理紧急指令
2025-09-19 13:15 三八线之南 -
“为跟中方谈,特朗普拒批4亿美元对台军援”
2025-09-19 12:14 观察者头条 -
美财长:人民币汇率对欧洲是个事,对我们不是
2025-09-19 12:03 中美关系 -
柯克遭枪击前去了日韩,挑唆“摆脱中国”
2025-09-19 10:55 美国政治 -
“吃了会不会长疮”,美国运动员道歉了
2025-09-19 10:42 美国一梦 -
马克龙将向美国法院提交“照片与科学证据”,证明妻子是女性
2025-09-19 10:25 -
罕见!普京长期盟友主动辞职
2025-09-19 10:14 俄罗斯之声
相关推荐 -
“极其鲁莽!特朗普开了一个非常糟糕的先例” 评论 56
美国“飞手”怒了:我爱国货,但无人机就得是中国 评论 108
全面禁售,还污蔑“中方会测绘美国每一寸土地” 评论 162
中方出手,“法国受伤最重” 评论 200最新闻 Hot-
“他俩各唱各的调”还抢功内斗,美国务院急灭火
-
最新公开!他自杀前给性侵犯写信:我们的总统也喜欢......
-
英媒有点急:挑战来了,中国又一领域跻身高端市场
-
“极其鲁莽!特朗普开了一个非常糟糕的先例”
-
泰国感谢中方:赞赏中方秉持客观公正立场
-
美国“飞手”怒了:我爱国货,但无人机就得是中国
-
笑岔气了,所谓“中国代理人”案核心证物竟是盐水鸭…
-
泰方:上次停火谈判太仓促,就为了给特朗普面子
-
全面禁售,还污蔑“中方会测绘美国每一寸土地”
-
特朗普又想起这茬了,“必须拿下,沿海全是中俄船只…”
-
中植集团原董事局主席高某某等涉嫌非法吸收公众存款罪案,一审宣判
-
中国父子偷渡美国,6岁儿子“失踪”?结局是……
-
气象预报事关国安,“中国要打破欧洲依赖”
-
日本死命折腾,“谁让特朗普不搭理我,还老提G2”
-
万科20亿债券展期方案再次被否,短暂延期至明年1月28日
-
广东最新大动作:500亿战略新兴产业基金成立
-

观察员

上海市互联网违法与不良信息举报中心