-
华为揭秘:国产昇腾训出世界一流大模型
最后更新: 2025-06-02 21:41:09
近日,华为在MoE模型训练领域再进一步,重磅推出参数规模高达7180亿的全新模型——盘古Ultra MoE,这是一个全流程在昇腾AI计算平台上训练的准万亿MoE模型。华为同时发布盘古Ultra MoE模型架构和训练方法的技术报告,披露众多技术细节,充分体现了昇腾在超大规模MoE训练性能上的跨越。
训练超大规模和极高稀疏性的MoE模型极具挑战,训练过程中的稳定性往往难以保障。针对这一难题,盘古团队在模型架构和训练方法上进行了创新性设计,成功地在昇腾平台上实现了准万亿MoE模型的全流程训练。
在模型架构上,盘古团队提出Depth-Scaled Sandwich-Norm(DSSN)稳定架构和TinyInit小初始化的方法,在昇腾平台上实现了超过18TB数据的长期稳定训练。此外,他们还提出了 EP loss 负载优化方法,这一设计不仅保证了各个专家之间的能保持较好的负载均衡,也提升了专家的领域特化能力。同时,盘古Ultra MoE使用了业界先进的MLA和MTP架构,在预训练和后训练阶段都使用了Dropless训练策略,实现了超大规模MoE架构在模型效果与效率之间的最佳平衡。
在训练方法上,华为团队首次披露在昇腾CloudMatrix 384超节点上,高效打通大稀疏比MoE强化学习(RL)后训练框架的关键技术,使RL后训练进入超节点集群时代。同时,在5月初发布的预训练系统加速技术基础上,在不到一个月的时间内,华为团队又完成了一轮迭代升级,包括:适配昇腾硬件的自适应流水掩盖策略,进一步优化算子执行序,进一步降低Host-Bound以及提升EP通信的掩盖;自适应管理内存优化策略的开发;数据重排实现DP间Attention负载均衡;以及昇腾亲和的算子优化,这些技术实现万卡集群预训练MFU由30%大幅提升至41%。
此外,近期发布的盘古Pro MoE大模型,在参数量仅为720亿,激活160亿参数量的情况下,通过动态激活专家网络的创新设计,实现了以小打大的优异性能,甚至可以媲美千亿级模型的性能表现。在业界权威大模型榜单SuperCLUE最新公布的2025年5月排行榜上,位居千亿参数量以内大模型排行并列国内第一。
华为盘古Ultra MoE和盘古Pro MoE系列模型的发布,证明华为不仅完成了国产算力+国产模型的全流程自主可控的训练实践,同时在集群训练系统的性能上也实现了业界领先。这意味着国产AI基础设施的自主创新能力得到了进一步验证,为中国人工智能产业的发展提供了一颗“定心丸”。
本文系观察者网独家稿件,未经授权,不得转载。
- 责任编辑: 杨依婷 
-
新消费走不出长沙?费大厨已经瞄准美国
2025-06-01 16:57 观网财经-消费 -
雷军、卢伟冰疑回应余承东
2025-06-01 14:40 观网财经-科创 -
年轻人中爆火的“捏捏乐”,是解压神器还是玩具“毒器”?
2025-05-31 19:18 观网财经-消费 -
三星、京东方在美国激烈互诉
2025-05-31 08:59 观网财经-科创 -
永辉超市及其董事长张轩松,被限制高消费!
2025-05-30 20:22 观网财经-消费 -
内部推广自家AI编程工具Trae引关注,字节内部再发补充说明
2025-05-30 18:47 观网财经-互联网 -
欧洲高端手机需求强劲,三星+苹果份额超60%
2025-05-30 15:52 观网财经-科创 -
工信部印发《算力互联互通行动计划》
2025-05-30 14:15 观网财经-科创 -
老外黄牛为抢Labubu当街混战!泡泡玛特饥饿营销隐忧浮现
2025-05-30 13:45 观网财经-消费 -
增收不增利的名创优品,一季报后市值蒸发超过80亿元
2025-05-30 11:49 观网财经-消费 -
黄仁勋减持600万股;大疆23亿深圳拿地;宇树科技回应更名
2025-05-30 08:34 观网财经-科创 -
宇树科技改名,公司回应
2025-05-29 23:14 大公司 -
国产EDA概念股大涨
2025-05-29 22:28 观网财经-科创 -
新茶饮4月开店1857家,同比减少34%
2025-05-29 20:40 观网财经-消费 -
字节跳动放宽博士招聘条件,薪酬不设上限
2025-05-29 19:51 观网财经-互联网 -
西门子EDA断供中国将如何冲击国内芯片产业?
2025-05-29 18:30 -
水艺新生 定制未来 德国高仪携重磅新品亮相2025中国国际厨卫展
2025-05-29 17:51 产业万象 -
目标中国前三,李健誓言带荣耀重生
2025-05-29 16:00 观网财经-科创 -
黄仁勋:无论有没有美国芯片,中国AI发展都会继续
2025-05-29 15:52 观网财经-科创 -
马斯克宣布即将离开美政府;大模型用隐私威胁人类;比亚迪回应经销商暴雷
2025-05-29 08:49 观网财经-科创
相关推荐 -
普京访印:美国都在买,印度凭啥不能买? 评论 1
日本开发稀土担心中国干扰?日防相放话 评论 96
“美欧抢矿,遭殃的却是他们” 评论 10
美国又开炮欧盟:你们在“霸凌”美国军工! 评论 68
时代变了,“欧洲人迫切想要中国技术” 评论 202最新闻 Hot-
日本开发稀土担心中国干扰?日防相放话
-
“按下葫芦浮起瓢”,英伟达想重返中国市场又难了…
-
“特朗普高兴太早咯,中国把枪放进枪套,但枪还在手上”
-
又出狂言,“加墨不能成为中国出口中心…”
-
“美欧抢矿,遭殃的却是他们”
-
“今年就当广告时间,等英国接任后我们再回归”
-
美国又开炮欧盟:你们在“霸凌”美国军工!
-
“不要惊醒‘美洲豹’”
-
土耳其急了:别碰能源设施!
-
时代变了,“欧洲人迫切想要中国技术”
-
“原来特朗普对中国做这么多”,某些美国鹰派急眼了
-
17年来最低,“好感急剧恶化”
-
韩国入境系统标示“中国台湾”,民进党当局破防
-
“在美欧闻了一鼻子尾气,才反应过来:中国早没这味了”
-
中企在非遭800亿美元天价索赔,BBC老毛病又犯了
-
俄乌冲突后普京首次来访,印“外交钢丝”还能走多久?
-

观察员
上海市互联网违法与不良信息举报中心