-
梁文锋署名DeepSeek最新论文,提出新方法突破GPU内存限制
【文/观察者网 熊超然】1月12日晚间,中国人工智能(AI)初创公司DeepSeek创始人梁文锋与北京大学研究人员共同署名发表了一篇技术论文,提出了一种新的模型训练技术。他们表示,该技术可以通过绕过图形处理单元(GPU)内存限制,实现“参数的积极扩展”。
香港《南华早报》1月13日报道指出,此举凸显了DeepSeek在算力相对美国行业领先企业存在差距的情况下,持续专注于最大限度地提高成本效率。与此同时,外界猜测该公司将在今年春节之前发布一款重要的新模型。
报道称,这篇技术含量极高的论文将受到中国和美国业内人士的广泛关注,他们希望从中了解DeepSeek所取得的最新进展。在过去一年中,DeepSeek一直是中国AI领域创新的典范。
DeepSeek与北京大学研究人员合作发表论文,梁文锋在列 论文截图
据报道,在这篇题为《基于可扩展查找的条件记忆:大语言模型稀疏性的新维度》(Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models)的最新论文中,介绍了一种名为“Engram”(记忆痕迹)的“条件记忆”(conditional memory)技术。
该技术用以解决扩大AI模型规模时的一个关键瓶颈——GPU高带宽内存(HBM)容量有限的问题。
现有的大型语言模型(LLM)通过计算来检索基础信息,而这一过程需要大量的计算能力。然而,研究人员表示,这种方式浪费了宝贵的“序列深度”(sequential depth),这些“序列深度”本可以被分配用于更高层次推理的琐碎操作。
《南华早报》指出,HBM是中国在AI硬件方面与美国之间最大的差距之一。韩国半导体行业分析机构SemiAnalysis的分析师Ray Wang表示,尽管近年来取得了稳步进展,但中国存储芯片巨头长鑫存储(CXMT)仍然比韩国的三星电子和SK海力士以及美国的美光科技等行业领军者落后数年。
在论文中,DeepSeek和北京大学的研究人员表示,通过将计算与存储“解耦”,Engram可以让模型更高效地“查找”这些基础信息。
他们提到的新技术,还能够提升模型在处理长上下文(即较长输入)时的效率,而这正是将AI聊天机器人转变为现实世界中有用的AI代理所面临的最大挑战之一。
研究人员在一个拥有270亿个参数的模型中验证了这一技术,发现它使主要行业基准测试的表现提升了几个百分点。关键在于,这也为模型执行计算需求更高的复杂推理保留了更多容量。
他们写道:“我们认为条件记忆将成为下一代稀疏模型中不可或缺的建模原语。”研究人员将Engram的潜在影响比作他们自己开发的一种“混合专家”(MoE)技术,该技术使模型规模的扩大无需按比例增加计算量,并且此后已被其他中国竞争对手采用。
DeepSeek创始人梁文锋 视频截图
目前,行业中最大的模型拥有数万亿个参数。开源开发者平台Hugging Face的研究工程师埃利·巴库奇(Elie Bakouch)在社交媒体上对这篇论文大加称赞,称其“在推理和训练时用硬件上验证了这一技术”。
据报道,这篇论文列出了14位共同作者,除了梁文锋之外,还包括北京大学王选计算机研究所助理教授、前微软亚洲研究院首席研究员张辉帅。
去年年初,DeepSeek发布的大模型DeepSeek-R1,使用由英伟达H800 GPU驱动的数据中心进行训练,仅用两个月就完成了训练,成本为550万美元,仅为OpenAI等美国公司所花费金额的一小部分。却实现了足以匹敌美国顶尖AI模型的效果,震撼业界的同时引发多国关注,尤其是美国。
当地时间1月12日,据英国《金融时报》报道,微软总裁布拉德·史密斯(Brad Smith)警告称,在争夺西方以外用户的竞争中,美国AI公司正被中国竞争对手超越,中国低成本的“开源”模型是一大优势所在。
他表示,中国AI初创公司DeepSeek的技术在非洲等新兴市场快速普及,凸显了美国公司在全球面临的竞争。“我们必须认识到,与一年前不同,现在中国拥有一个,而且越来越多地拥有不止一个具有竞争力的开源模型。”
报道指出,史密斯发表这番言论之际,微软的一项新研究发现,DeepSeek一年前发布的R1大型语言模型,因其“易用性和低成本”,帮助加速了AI在全球范围内的普及,尤其是在全球南方国家。这也让中国在“开源”AI模型的全球市场份额方面超越了美国,这些模型通常可以免费供开发人员使用、修改和集成。
《南华早报》指出,在DeepSeek发布其R1模型一周年之际,外界对其即将推出一款新的重要模型的期待正在升温。美国硅谷的新兴科技媒体“The Information”当地时间1月9日报道称,DeepSeek预计将在今年2月中旬推出一款具备强大编程能力的新V4模型。
本文系观察者网独家稿件,未经授权,不得转载。
- 责任编辑: 冉召月 
-
习近平总书记特使访问老挝
2026-01-13 20:16 -
伊朗将缺席金砖国家南非军演?外交部回应
2026-01-13 20:16 伊朗局势 -
“剪辑拼接又没影响他当选”,BBC寻求驳回特朗普诉讼
2026-01-13 20:01 特朗普 -
事关900亿欧元,德法吵翻了
2026-01-13 19:34 乌克兰之殇 -
微软急了:西方以外的市场,中国领先
2026-01-13 18:22 人工智能 -
“AI热潮”反噬美国电网:数据中心太多,要爆了
2026-01-13 17:34 人工智能 -
李在明:韩日依然存在一段段未解的历史伤痕
2026-01-13 17:29 中日关系 -
美防长称:马斯克旗下AI聊天机器人将接入五角大楼网络
2026-01-13 17:13 人工智能 -
特朗普想动手,轮到万斯“踩刹车”?
2026-01-13 16:53 伊朗局势 -
得罪特朗普,陆克文官宣提前一年离任
2026-01-13 16:17 -
“贝森特直接打电话抱怨:调查鲍威尔把事情搞得一团糟”
2026-01-13 16:08 美国政治 -
鲍威尔没救了?商界为何没人替他“出头”
2026-01-13 15:54 美国经济 -
摩尔多瓦总统:如果公投,我支持与罗马尼亚合并
2026-01-13 15:32 欧洲乱局 -
美国撤人、威胁对伊动武,中方回应
2026-01-13 15:28 伊朗局势 -
特朗普称将对伊朗商业伙伴加征25%关税,中方回应
2026-01-13 15:25 应对特朗普冲击波 -
“开心!我陪总理去中国”
2026-01-13 15:05 -
“印尼也求购枭龙,超40架”
2026-01-13 14:57 巴铁 -
“特朗普又不是个傻子”
2026-01-13 14:13 唐罗主义来了 -
美军高官泼脏水:还是没能摁住中国
2026-01-13 14:13 -
“出乎意料,部分中企在拉美反而加速了…”
2026-01-13 14:12 唐罗主义来了
相关推荐 -
美学者直说了:结局好不了,面对中俄时会更糟 评论 26
最新警告:美以再搞事,“一升油”也别想运出去 评论 78
美国要拆东墙补西墙,“韩国反对了,没用” 评论 195
乱泼脏水!这回他们盯上了美国大学里的中国学生组织 评论 94
是否刺杀伊朗新领袖?特朗普竟突然“共情”了… 评论 185最新闻 Hot-
“听说伊朗非常想谈,有可能有条件同他们谈”
-
最新警告:美以再搞事,“一升油”也别想运出去
-
黎巴嫩政府找美国想同以色列和谈,美大使“爆粗口”
-
“现在才撤外交人员,特朗普开战前做好准备吗?”
-
两次拒接电话,“懦夫!道不同…”
-
马克龙称考虑霍尔木兹海峡护航,但要在...
-
比2022年更糟?欧洲慌了
-
美学者直说了:可能没好结局,尤其是面对中俄
-
驻韩美军“爱国者”“萨德”已被转移至中东
-
没完了!“绝不允许中国监视,要查”
-
伊朗:弹头重量不足一吨的导弹不发
-
怂了?“特朗普顾问劝他别打了”
-
特朗普称已考虑接替穆杰塔巴的人选,外交部表态
-
英雄所见略同?中美都看上这里
-
美国要拆东墙补西墙,“韩国反对了,没用”
-
特朗普又嘲讽马克龙:我用关税一吓,他就答应了
-

观察员

上海市互联网违法与不良信息举报中心