-
DeepSeek又有重大突破?一款未公开大模型展现惊人能力
-
连政guanchazhewanxgun
DeepSeek再一次发布了强大的开源大模型。
1月20日,国内大模型公司深度求索(DeepSeek)在其公众号公布了新一代开源大模型DeepSeek-R1,该模型号称在数学、代码、自然语言推理等任务上,性能比肩美国OpenAI公司最新的o1大模型正式版。
根据数据,DeepSeek-R1在算法类代码场景(Codeforces)和知识类测试(GPQA、MMLU)中的得分略低于OpenAI o1,但在工程类代码场景(SWE-Bench Verified)、美国数学竞赛(AIME 2024, MATH)项目上,均超过了OpenAI o1 。
其中,与深度求索上月发布的大模型DeepSeek-V3相比,DeepSeek-R1在AIME 2024和Codeforces中的得分提升了近一倍,而其余项均有不同程度的提升。
深度求索还更新了用户协议,明确模型开源License将统一使用标准的MIT许可,同时还允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。按照深度求索数据显示,在以DeepSeek-R1基础上进行“蒸馏”的6个小模型中,32B和70B模型在多项能力上都实现了对标OpenAI的o1-mini 的效果。
面对这个令人瞩目的成绩,深度求索则解释称,DeepSeek-R1 后训练阶段中大规模使用了强化学习(RL)技术,在仅有极少人工标注数据的情况下,极大提升了模型推理能力。这意味着该模型几乎跳过了监督微调(SFT)步骤,就实现了推理能力自我提升。
DeepSeek-R1-Zero自然而然地学会用更多的思考时间来解决推理任务。深度求索
通常情况下,强化学习的好处是可以通过与外界评价反馈,不断让模型自我优化,生成更符合人类偏好的内容。而监督微调则是指在预训练使用人工标注的数据进行干预,可以让生成的内容更准确且符合预期,这也是当年ChatGPT成功的关键。但从成本上来说,强化学习虽然需要大量人类反馈,且训练复杂计算成本高,但监督微调则非常依赖高质量的人工标注数据。
值得注意的是,目前深度求索向用户提供的仅有DeepSeek-R1版本,而在其公开测试结果中却透露了另一个大模型 —— DeepSeek-R1-Zero。该模型完全通过大规模使用强化学习替代了监督微调,但也导致了一些问题,因此未对外公开。
更重要的是,工作人员发现,在DeepSeek-R1-Zero自我学习的过程,随着时间的增加,该模型“涌现”出了复杂的行为,如自我反思、评估先前步骤、自发寻找替代方案的情况,还包括一次“尤里卡时刻”(“aha moment)。
“尤里卡时刻”指人类突然理解一个以前无法理解的问题或概念的某个时刻。
深度求索透露,这次“尤里卡”发生在DeepSeek-R1-Zero的的中间版本期间。当时工作人员惊奇地发现,在一道数学题中,该模型学会了使用拟人化的语气进行自我反思,并主动为问题分配了更多地时间进行重新思考。
深度求索称,工作人员并没有教DeepSeek-R1-Zero如何解决问题,只是提供了正确的激励,它就能自主发展出先进的问题解决策略。“这次尤里卡也提醒我们,强化学习有可能为人工智能解锁新的智能水平,为以后发展出更自主和适应性的模型铺平道路。”
不过,虽然DeepSeek-R1-Zero展示出了强大的推理能力,但自身也出现了一些语言混乱及可读性的问题,因此深度求索通过引入数千条高质量的冷启动数据和多段强化学习来解决这些问题,并获得了上文中对外正式公布的DeepSeek-R1大模型。
目前,DeepSeek-R1 API 服务定价为每百万输入 tokens 1 元(缓存命中)/ 4 元(缓存未命中),每百万输出 tokens 16 元。
本文系观察者网独家稿件,未经授权,不得转载。
- 责任编辑: 连政 
-
饿了么推出九项举措:让“算法”成为骑手的“办法”
2025-01-21 18:04 大公司 -
京东方扣非净利3年来首度预盈,供货华为三折叠
2025-01-21 18:01 观网财经-科创 -
印度手机单季出货:三星暴跌29%掉至第三,苹果首进前五
2025-01-21 17:12 观网财经-科创 -
工信部:2025年试点部署万兆光网
2025-01-21 16:37 -
台南市6.2级地震:台积电称各厂区营运正常
2025-01-21 16:36 今日财经 -
运-5再魔改!国产大型无人机鸿雁 HY100 量产交付
2025-01-21 16:34 观网财经-科创 -
中国5G基站达425万个,每月户均移动流量达19个GB
2025-01-21 16:27 观网财经-科创 -
湖北省委书记王忠林与雷军等企业家座谈
2025-01-21 14:08 观网财经-科创 -
罗晓任中国商飞党委副书记、董事
2025-01-20 21:01 大公司 -
黄仁勋现身北京,称华为三折叠“难以置信”
2025-01-20 18:15 观网财经-科创 -
荣耀中国区CMO将离职
2025-01-20 16:32 观网财经-科创 -
前华为悍将挂帅,荣耀剑指高端化和全球化
2025-01-20 15:15 观网财经-科创 -
中国折叠屏市场罕见下滑,华为荣耀vivo位列去年前三
2025-01-20 14:10 观网财经-科创 -
华为2024年分红方案公布,收益率18%
2025-01-20 10:11 观网财经-科创 -
事关国补!苹果华为等多款手机降价至6000元以下
2025-01-20 09:43 观网财经-科创 -
TikTok向美国用户推送暂停服务通知
2025-01-19 10:57 观网财经-互联网 -
马斯克要收购英特尔?
2025-01-18 14:48 观网财经-科创 -
荷兰决定“隐藏”光刻机巨头对华销售情况
2025-01-18 13:24 观网财经-科创 -
龙芯中科去年净利大跌88%,预亏超6亿
2025-01-18 09:57 观网财经-科创 -
日本压上国运的氢能源,出路只能在中国?
2025-01-17 18:48 观察者头条
相关推荐 -
-
“损失惨重的100天”,他俩会掰吗? 评论 64男频一哥身陷“霍去病”危机?别回头!戏说时代结束了 评论 256“拜登这损招反逼他人找中国买”,特朗普想修改… 评论 76美国新驻华大使:曾在香港居住多年,对特朗普“忠诚” 评论 102最新闻 Hot
-
美国一季度GDP萎缩0.3%,特朗普嘴硬:关税没错
-
“如果没有人口大国愿意派遣兵力,这一计划将是死路一条”
-
泽连斯基暗示要袭击俄胜利日阅兵式?俄方回应
-
“美国负债超33万亿美元,没钱补贴欧洲了”
-
“纺织业是过去式,美国不需要”,业界怒了
-
男频一哥身陷“霍去病”危机?别回头!戏说时代结束了
-
“上台100天,说100个谎√”
-
特朗普吹破天,白宫备忘录没敢提对华关税…
-
加拿大人突然对华更友好:中国制造比美国制造强多了
-
“拜登这损招反逼他人找中国买”,特朗普想修改…
-
“应让各国明白,没中国,特朗普不会宽限90天”
-
15箱中国货海上漂,“死忠粉”傻眼:我哪知道特朗普是纯疯啊
-
“死磕”海底挖矿:美国落后,中国就高兴了
-
我驻智利大使质问:美国怀疑中国,那美国自己呢?
-
“我想当教皇”
-
巴基斯坦警告:可靠情报显示,印度将在36小时内动武
-