-
深圳用昇腾910C集群完成1.6万亿参数大模型训练
近日,深圳河套学院Al训练平台项目团队,联合哈尔滨工业大学(深圳)、深圳市大数据研究院、华为有关团队,协同深智城AI算力平台,面向国产算力大模型训练开展联合攻关。依托昇腾910C国产AI算力集群,完成1.6万亿参数大模型DeepSeek-V4-Pro全参数后训练。
此次实践为全球第三方机构在国产算力平台上完成该级别模型训练的相关探索,积累了重要经验,也印证了国产AI芯片可支撑世界级超大参数模型训练工作。
优化建模SFT数据飞轮流程
万亿参数大模型是人工智能领域的主流前沿模型,在逻辑推理、数理计算、代码编写、长文本理解等方面表现突出。这类模型的全参数训练,对硬件算力、集群稳定性、算法适配优化均有严苛要求。
长期以来,全球范围内万亿级大模型训练多采用海外高端算力产品,国内国产算力此前主要用于模型推理、小幅微调,难以完成全参数深度训练,这也是行业发展中普遍面临的技术难题。
万亿级参数的AI大模型训练难在哪?
如果把训练一个万亿级参数的AI大模型比作解一道超级复杂的数学题,那么每一张计算卡就像一名解题员。他们不仅要分工明确、日夜不停地连轴转,还不能有人偷懒、不能有人出错,更不能有人掉队。
这次训练的DeepSeek-V4-Pro采用的是混合专家模型(MoE)架构,可以把它想象成一个庞大的“专家团”:平时回答问题只激活少数几位专家,看似高效,但后训练时,“专家们”之间的沟通量却是普通模型的几十倍。再加上动态切换的注意力机制,这对芯片算力的调度和显存资源的管理提出了极其苛刻的要求。
简单来说,以前的国产算力更多是让大模型“能用”(即推理部署),就像给模型修了一条单行道,输入一个问题,输出一个答案。而这次的“全参数后训练”,则是要让模型学会自我反思和调整,相当于在单行道的基础上,又增加了复杂的立交桥和多条反馈回路,计算量和通信量瞬间翻了好几倍。
三大硬核突破让国产算力“跑得稳”
面对如此极限的挑战,科研团队在国产AI算力集群上实现了三大硬核突破:
一是“显存拼图”。万亿级大模型不可能只塞进一张卡,团队设计了精密的分布式承载方案,把庞大的模型参数像拼图一样,精确地分配到千卡集群的每一张卡上,算力调度明明白白。
二是“负载均衡”。为了避免MoE模型中有的“专家”忙得够呛、有的却在“闲逛”,团队专门优化了调度策略,保证了每位“专家”分工合理,跨卡通信不再“堵车”。
三是“有人‘守夜’”。全参数后训练最怕跑着跑着系统突然崩溃。本次训练团队搭建了完整的监控体系,全部实现可视可控,确保了长达1500多步的训练过程中,没有出现一次中断或报错。
项目团队开展技术复盘与学生实战培养
本次探索是国产算力适配超大参数大模型过程中的一次重要进展,有助于提升国内AI产业链自主化水平,降低行业应用成本,为人工智能技术落地应用提供更多支撑。目前,项目已实现模型算力利用率(MFU)超过30%,关键训练算子效率提升14%,各项指标均达到工业级运行标准。
从技术应用角度来看,调用已有模型开展业务推理,与从零完成模型全参数训练分属不同技术环节,二者在技术难度、硬件要求上存在明显区别。本次试验结果表明,国产AI算力已可承担顶级大模型训练任务,相关技术路径具备可行性。
- 责任编辑: 汤普济 
-
大国重器,不再“高冷”
2026-06-05 21:10 观网财经-互联网 -
强制消费者注册会员、极限拉新,名创优品店员被“逼疯”
2026-06-05 17:20 观网财经-消费 -
汤道生对谈姚顺雨:首次回应“腾讯慢了”,AI下半场才刚开始
2026-06-05 16:14 观网财经-互联网 -
追觅创始人俞浩微博被禁言,已停更4天
2026-06-05 13:13 大公司 -
欧洲人为什么把工厂白送给中国人?
2026-06-05 10:08 产经 科创 -
株洲:从高铁到火箭,一座“理工男”城市的商业航天突围
2026-06-05 10:08 产经 科创 -
在海外批量复制“李佳琦”,行不行?
2026-06-04 20:32 观网财经-互联网 -
张一鸣跃升亚洲第二大富豪,身家达到6288亿
2026-06-04 17:36 观网财经-科创 -
“全冰出击”再现?瑞幸咖啡去冰后缩杯引争议
2026-06-04 17:07 观网财经-消费 -
微信开放华为小米等智能体接入
2026-06-04 14:33 观网财经-科创 -
老外的中国“信息茧房”,被算法打碎了
2026-06-04 14:31 产业万象 -
卡位海外市场刚需,海辰押注8小时长时储能
2026-06-04 13:52 产经 科创 -
张小龙:向中国人民大学师生道歉
2026-06-04 13:34 -
中美低空经济,即将在塞尔维亚打擂台?
2026-06-04 13:25 低空经济 -
太惊艳了!陈梦官宣新身份,为青岛代言!
2026-06-04 11:30 -
AI智能体杀进地产行业,垂直大模型能搭上楼市复苏风口吗?
2026-06-04 11:14 观网财经-房产 -
宁波:机器人上岗校门口
2026-06-03 21:54 观网财经-科创 -
光的“乱战”,中国如何抢位?
2026-06-03 21:02 观察者头条 -
国内玻璃硬盘实现小规模量产,短期内难替代SSD
2026-06-03 20:52 观网财经-科创 -
病历处方皆可“裸奔”?九款医药健康应用被通报违规收集个人信息
2026-06-03 20:12 观网财经-健康
相关推荐 -
“美国没工夫管我们了”,泽连斯基给普京致公开信 评论 33
美航母视频曝光,“感觉船要没了,要么灭火要么等死” 评论 158
美农业部长发愁:饭碗在中国手里,下一个250年咋办 评论 198
华为“韬定律”,最大极限在哪里? 评论 186最新闻 Hot-
“惊人反转”,拿俄方做幌子,美国这也不想给德国了?
-
内塔尼亚胡支持率下滑,“以色列选民抱怨他不够强硬”
-
这些孩子自出生就无法自主站立,中国小机器人帮他们做到了
-
德国汉莎一波音787突然“磕头”,致多人受伤
-
追觅创始人俞浩微博被禁言,已停更4天
-
Anthropic呼吁全球暂停AI开发,打压同行、营销策略还是真有问题?
-
国际足联:禁止球迷带水瓶进场馆
-
美航母视频曝光,“感觉船要没了,要么灭火要么等死”
-
西方面对中国,“教会徒弟,饿死师傅”?!
-
长崎核爆资料馆计划更新展板,拟写明“日本曾侵略中国”
-
“太疯狂了”,中国机器人在《美国达人秀》炸场
-
特朗普:不见
-
新西兰还委屈上了:要找中国
-
“美国争不过中国,差在这了”
-
普京:需要说服乌方相信俄罗斯同意妥协
-
吃不着葡萄?更多外企加码在华投资,特朗普长子好酸…
-

观察员

上海市互联网违法与不良信息举报中心