-
华为揭秘:国产昇腾训出世界一流大模型
最后更新: 2025-06-02 21:41:09
近日,华为在MoE模型训练领域再进一步,重磅推出参数规模高达7180亿的全新模型——盘古Ultra MoE,这是一个全流程在昇腾AI计算平台上训练的准万亿MoE模型。华为同时发布盘古Ultra MoE模型架构和训练方法的技术报告,披露众多技术细节,充分体现了昇腾在超大规模MoE训练性能上的跨越。
训练超大规模和极高稀疏性的MoE模型极具挑战,训练过程中的稳定性往往难以保障。针对这一难题,盘古团队在模型架构和训练方法上进行了创新性设计,成功地在昇腾平台上实现了准万亿MoE模型的全流程训练。
在模型架构上,盘古团队提出Depth-Scaled Sandwich-Norm(DSSN)稳定架构和TinyInit小初始化的方法,在昇腾平台上实现了超过18TB数据的长期稳定训练。此外,他们还提出了 EP loss 负载优化方法,这一设计不仅保证了各个专家之间的能保持较好的负载均衡,也提升了专家的领域特化能力。同时,盘古Ultra MoE使用了业界先进的MLA和MTP架构,在预训练和后训练阶段都使用了Dropless训练策略,实现了超大规模MoE架构在模型效果与效率之间的最佳平衡。
在训练方法上,华为团队首次披露在昇腾CloudMatrix 384超节点上,高效打通大稀疏比MoE强化学习(RL)后训练框架的关键技术,使RL后训练进入超节点集群时代。同时,在5月初发布的预训练系统加速技术基础上,在不到一个月的时间内,华为团队又完成了一轮迭代升级,包括:适配昇腾硬件的自适应流水掩盖策略,进一步优化算子执行序,进一步降低Host-Bound以及提升EP通信的掩盖;自适应管理内存优化策略的开发;数据重排实现DP间Attention负载均衡;以及昇腾亲和的算子优化,这些技术实现万卡集群预训练MFU由30%大幅提升至41%。
此外,近期发布的盘古Pro MoE大模型,在参数量仅为720亿,激活160亿参数量的情况下,通过动态激活专家网络的创新设计,实现了以小打大的优异性能,甚至可以媲美千亿级模型的性能表现。在业界权威大模型榜单SuperCLUE最新公布的2025年5月排行榜上,位居千亿参数量以内大模型排行并列国内第一。
华为盘古Ultra MoE和盘古Pro MoE系列模型的发布,证明华为不仅完成了国产算力+国产模型的全流程自主可控的训练实践,同时在集群训练系统的性能上也实现了业界领先。这意味着国产AI基础设施的自主创新能力得到了进一步验证,为中国人工智能产业的发展提供了一颗“定心丸”。
本文系观察者网独家稿件,未经授权,不得转载。
- 责任编辑: 杨依婷 
-
新消费走不出长沙?费大厨已经瞄准美国
2025-06-01 16:57 观网财经-消费 -
雷军、卢伟冰疑回应余承东
2025-06-01 14:40 观网财经-科创 -
年轻人中爆火的“捏捏乐”,是解压神器还是玩具“毒器”?
2025-05-31 19:18 观网财经-消费 -
三星、京东方在美国激烈互诉
2025-05-31 08:59 观网财经-科创 -
永辉超市及其董事长张轩松,被限制高消费!
2025-05-30 20:22 观网财经-消费 -
内部推广自家AI编程工具Trae引关注,字节内部再发补充说明
2025-05-30 18:47 观网财经-互联网 -
欧洲高端手机需求强劲,三星+苹果份额超60%
2025-05-30 15:52 观网财经-科创 -
工信部印发《算力互联互通行动计划》
2025-05-30 14:15 观网财经-科创 -
老外黄牛为抢Labubu当街混战!泡泡玛特饥饿营销隐忧浮现
2025-05-30 13:45 观网财经-消费 -
增收不增利的名创优品,一季报后市值蒸发超过80亿元
2025-05-30 11:49 观网财经-消费 -
黄仁勋减持600万股;大疆23亿深圳拿地;宇树科技回应更名
2025-05-30 08:34 观网财经-科创 -
宇树科技改名,公司回应
2025-05-29 23:14 大公司 -
国产EDA概念股大涨
2025-05-29 22:28 观网财经-科创 -
新茶饮4月开店1857家,同比减少34%
2025-05-29 20:40 观网财经-消费 -
字节跳动放宽博士招聘条件,薪酬不设上限
2025-05-29 19:51 观网财经-互联网 -
西门子EDA断供中国将如何冲击国内芯片产业?
2025-05-29 18:30 -
水艺新生 定制未来 德国高仪携重磅新品亮相2025中国国际厨卫展
2025-05-29 17:51 产业万象 -
目标中国前三,李健誓言带荣耀重生
2025-05-29 16:00 观网财经-科创 -
黄仁勋:无论有没有美国芯片,中国AI发展都会继续
2025-05-29 15:52 观网财经-科创 -
马斯克宣布即将离开美政府;大模型用隐私威胁人类;比亚迪回应经销商暴雷
2025-05-29 08:49 观网财经-科创
相关推荐 -
“极其鲁莽!特朗普开了一个非常糟糕的先例” 评论 56
美国“飞手”怒了:我爱国货,但无人机就得是中国 评论 108
全面禁售,还污蔑“中方会测绘美国每一寸土地” 评论 162
中方出手,“法国受伤最重” 评论 200最新闻 Hot-
“他俩各唱各的调”还抢功内斗,美国务院急灭火
-
最新公开!他自杀前给性侵犯写信:我们的总统也喜欢......
-
英媒有点急:挑战来了,中国又一领域跻身高端市场
-
“极其鲁莽!特朗普开了一个非常糟糕的先例”
-
泰国感谢中方:赞赏中方秉持客观公正立场
-
美国“飞手”怒了:我爱国货,但无人机就得是中国
-
笑岔气了,所谓“中国代理人”案核心证物竟是盐水鸭…
-
泰方:上次停火谈判太仓促,就为了给特朗普面子
-
全面禁售,还污蔑“中方会测绘美国每一寸土地”
-
特朗普又想起这茬了,“必须拿下,沿海全是中俄船只…”
-
中植集团原董事局主席高某某等涉嫌非法吸收公众存款罪案,一审宣判
-
中国父子偷渡美国,6岁儿子“失踪”?结局是……
-
气象预报事关国安,“中国要打破欧洲依赖”
-
日本死命折腾,“谁让特朗普不搭理我,还老提G2”
-
万科20亿债券展期方案再次被否,短暂延期至明年1月28日
-
广东最新大动作:500亿战略新兴产业基金成立
-

观察员

上海市互联网违法与不良信息举报中心