-
DeepSeek-R1开创历史,梁文锋论文登上《自然》封面
最后更新: 2025-09-18 15:52:56据国际权威期刊《自然(Nature)》杂志网站9月17日消息,由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1推理模型研究论文被《自然》杂志刊载,并登上了当期《自然》的封面。
当期《自然》杂志封面
与今年1月发布的DeepSeek-R1的初版论文相比,本次论文披露了更多模型训练的细节,并正面回应了模型发布之初的蒸馏质疑。DeepSeek-R1也是全球首个经过同行评审的主流大语言模型。Nature评价道:目前几乎所有主流的大模型都还没有经过独立同行评审,这一空白“终于被DeepSeek打破”。
《科技日报》则在报道中介绍称,梁文锋参与的研究表明,大语言模型的推理能力可通过纯强化学习来提升,从而减少增强性能所需的人类输入工作量。训练出的模型在数学和STEM领域研究生水平问题等任务上,比传统训练的大语言模型表现更好。
DeepSeek-R1包含一个在人类监督下的深入训练阶段,以优化推理过程。梁文锋团队报告称,该模型使用了强化学习而非人类示例来开发推理步骤,减少了训练成本和复杂性。DeepSeek-R1在被展示优质的问题解决案例后,会获得一个模板来产生推理过程,即这一模型通过解决问题获得奖励,从而强化学习效果。在评估AI表现的各项测试中,DeepSeek-R1-Zero和DeepSeek-R1的表现都十分优异。
梁文锋团队总结说,未来研究可以聚焦优化奖励过程,以确保推理和任务结果更可靠。
本文系观察者网独家稿件,未经授权,不得转载。
- 责任编辑: 胡致 
-
“如果没有中国,美国将独霸AI”
2025-09-18 15:36 人工智能 -
事关祖国统一,国防部长最新表态
2025-09-18 14:26 观察者头条 -
四川一高校通报“保安乱丢外卖”处理结果:赔偿损失,保卫处处长停职
2025-09-18 07:54 -
勿忘历史,警钟长鸣!
2025-09-18 07:23 -
黑龙江省委书记现场观看《731》
2025-09-17 23:12 中国电影 -
警方通报:“嘎子哥”被行拘7天
2025-09-17 22:47 依法治国 -
北京大学:坚决拥护党中央决定
2025-09-17 20:01 中西教育 -
多所高校宣布取消绩点制
2025-09-17 19:59 中西教育 -
8月不含在校生16-24岁失业率达18.9%
2025-09-17 19:59 中国经济 -
-
北大副校长任羽中,主动投案
2025-09-17 16:10 廉政风暴 -
工信部就智能网联汽车组合驾驶辅助相关标准公开征求意见
2025-09-17 15:19 -
抗战胜利80周年纪念活动总结会议在京举行,习近平亲切接见各方面代表
2025-09-17 13:41 抗战胜利80周年 -
在英特尔工作近20年后,芯片架构师苏菲回清华任教
2025-09-17 13:40 -
以史为鉴,共话和平——“战争、和平与和解”国际专家论坛在京举行
2025-09-17 09:15 -
干部邓某诬陷22人贪污受贿、存不正当男女关系等,被起诉
2025-09-17 08:25 -
李强在甘肃、青海调研
2025-09-16 20:54 -
豫鄂交界水域有人违法淘金?官方通报
2025-09-16 20:05 黄金游戏 -
10月1日起,贵州实施境外旅客购物离境退税政策
2025-09-16 17:58 -
受贿超5506万元,中宣部原副部长张建春一审被判14年
2025-09-16 17:14 廉政风暴
相关推荐 -
断供、断线、断念!多军种开展联合立体火力打击 评论 18
中国有望登顶,终结日企20余年霸主地位 评论 158
特朗普表态:不担心 评论 249
强拆巴拿马华人纪念碑,原来她蓄谋已久? 评论 177
拖太久!“内塔尼亚胡不断搞破坏”,美国没耐心了 评论 28最新闻 Hot

观察员
















上海市互联网违法与不良信息举报中心