-
OpenAI联合五巨头刚进场,中国团队的答卷已经上线
(文/陈济深 编辑/张广凯)
美东时间5月5日,OpenAI联合英伟达、AMD、英特尔、微软和博通,发布了一项名为MRC的新型网络传输协议,目标是解决大规模AI集群中GPU之间的数据传输效率问题。
OpenAI在公告中提到,ChatGPT每周活跃用户已经突破9亿。用户规模继续膨胀,背后对应的是训练、推理和调度系统的持续扩张。网络开始从底层配套,变成影响GPU有效产能的关键环节。
目前,MRC已经部署在OpenAI最大规模的超算集群中,而五家合作伙伴几乎覆盖了美国AI芯片和云计算产业的全部核心力量。
5月21日,中国大模型独角兽智谱宣布,联合清华大学与驭驯网络,在GLM-5.1线上生产集群中完成了另一种全新网络架构ZCube的规模化落地。
三个月前,智谱刚经历过一轮真实的算力危机。2月12日GLM-5上线后,全球范围内的需求激增,并发访问量突破了既有规划的上限,服务出现排队、响应延迟和卡顿。智谱多次对国产芯片集群进行扩容,限量发售GLM Coding Plan套餐,仍然无法彻底解决供不应求的局面,不得不在2月16日发公告,面向芯片厂商和算力服务商公开启动「算力合伙人」招募计划。
堆卡扩容是最直接的应对手段,但卡的供给有天花板。ZCube的落地,意味着智谱和合作伙伴给出了另一种思路:在现有GPU规模不变的前提下,从网络架构层挖掘效率空间。
过去两年,AI算力竞赛的主线是拼GPU数量。万卡集群、十万卡集群,几乎成了衡量AI公司基础设施能力的硬指标。但OpenAI和智谱几乎同时释放的信号表明,AI基建已经进入了一个新阶段:GPU之外,网络开始成为超大规模AI基础设施的下一个主战场。
算力的隐藏瓶颈:GPU仍然不够,网络更成了问题
大模型推理不是单张GPU的事。每处理一次用户请求,集群内部都要高频传递大量中间数据。
现在业界主流的做法是PD分离部署,负责「理解问题」的GPU和负责「生成回答」的GPU分开部署在不同节点上,中间有一块叫KV Cache的数据需要跨节点搬运,搬运量大且极不均匀。
传统的网络架构很难适配这种不均匀的流量模式。少数几台交换机和链路反复拥堵,其他链路却没有被充分利用。结果就是,总带宽看起来够,但有效吞吐上不去,GPU只能等数据。
智谱技术团队做过一组控制变量实验:同样的GPU和软件,仅将网络带宽从100Gbps提升到200Gbps,推理总吞吐就涨了约19%,首Token时延下降了约22%。
这说明,现有集群里相当一部分GPU并没有充分释放产能。卡没坏,但路开始成为决定有效产能的关键变量。
业界沿用了二十多年的组网方式叫Clos架构。它的基本形态,是交换机一层一层往上堆,底层Leaf交换机连GPU,顶层Spine交换机负责转发跨组流量,像金字塔。
英伟达在此基础上推过一个优化版ROFT,把相同编号的GPU接到同一台Leaf交换机上,训练场景下效果不错。但到了PD分离推理场景,问题暴露了。
KV Cache传输天然是不对称的,不同GPU、不同网卡承担的负载差异很大,ROFT假设的「均匀分配」不成立。少数几台Leaf交换机变成热点,PFC反压频繁触发,链路拥塞进一步放大尾时延,拖慢整个集群。
打个比方,ROFT假设每条车道上的车流量差不多,所以均匀分配红绿灯时长。实际上有几条道车特别多,有几条道几乎没车,红绿灯方案就失效了。
推翻二十年旧架构:ZCube如何破局
智谱、清华大学和驭驯网络此次落地的方案ZCube,则是选择把金字塔拍平。
这一拓扑架构此前已由清华大学、中关村实验室、驭驯网络、字节跳动等团队在ACM SIGCOMM 2025论文中系统提出。SIGCOMM是计算机网络领域公认的全球最高级别学术会议。据智谱披露,评审曾评价ZCube「显著改变了整个行业对网络的认知方式」(significantly change the way we think about and understand networking)。
此次智谱将其引入GLM-5.1 coding生产推理集群,是ZCube首次在真实大规模推理环境中完成验证。
传统Clos架构的金字塔结构里,底层交换机连GPU,顶层交换机负责转发,数据跨组传输要先上楼再下楼,路径长,也更容易形成局部拥塞。
ZCube的做法是砍掉顶层,只留底层交换机,分成两组做完全互联,再用一种混合接入方式让每张GPU同时连接两组交换机。
最终效果是,全网任意两张GPU之间只需经过两台交换机就能通信,每对GPU之间都只有一条最优路径。由拓扑映射和路径选择造成的无谓冲突,被大幅压低。
当然,这并不意味着所有拥塞都会消失。多个GPU同时向同一目的地写入数据这类不可避免的拥塞仍然存在,但那需要拥塞控制和调度策略去处理,已经不是ZCube主要解决的问题。
因为砍掉了整个顶层,ZCube还能直接减少交换机和光模块数量。按照智谱披露的数据,交换机与光模块资本开支减少约三分之一。
扩展性上,使用一层容量为51.2T的交换机,也就是128个400Gbps端口,ZCube就能构建一个连接16384块400Gbps网卡的网络。如果使用更高容量的交换机,或者将ZCube划分为多个平面,规模可以进一步推到数万乃至数十万张GPU。
这套架构的适用范围也不止推理,训练场景下同样有效。
回到刚才的比方:ZCube不是优化红绿灯,而是重新画路网,让原本由拓扑结构造成的无谓冲突大幅减少。
智谱在一个千卡级的GLM-5.1 coding推理集群上做了实测。GPU型号、软件栈、业务代码全部不动,只把网络从ROFT换成ZCube。
据智谱披露,GPU平均推理吞吐提升15%,TTFT P99,也就是首Token时延的99分位,降低40.6%,交换机与光模块成本减少三分之一。按万卡规模估算,仅网络硬件一项可节省2.1亿至6.4亿元。
目前,该集群已在线上稳定运行超过两周,在GLM-5.1 coding推理服务中发挥着重要作用。
ZCube的部署并非软件升级,而是物理改造。布线方案、IP编址、路由策略、交换机配置全部要针对新架构重新设计。驭驯网络团队为此开发了一套完整的自动化工具链,覆盖机房布局设计、连线正确性校验、配置自动生成与批量下发,这是短时间内完成大规模生产集群改造的关键。
OpenAI走的是另一条路
OpenAI的MRC协议解决的也是大规模集群的网络瓶颈,但场景和路线都不同。
MRC主要面向训练网络,解决的是大规模GPU集群做同步预训练时,尾部延迟和链路故障拖慢整个训练作业的问题。ZCube此次落地在推理网络,对付的是PD分离场景下KV Cache传输造成的结构性拥塞。
同一类瓶颈,在训练和推理两端各有各的表现形态。
技术路线上,MRC没有像ZCube那样重构拓扑,而是在现有多平面两层以太网结构上,通过多路径并发传输和智能路由把路径利用率拉高,哪条路堵了就微秒级绕过。
MRC已经部署在OpenAI全部最大规模的英伟达GB200超算集群上,并已用于训练多个前沿模型。协议规范则通过Open Compute Project向全行业开放。
两种方案甚至不互斥,理论上可以叠加。但它们在同一个月被推到产业台前这件事本身,比单项技术更值得关注:GPU军备竞赛打了两年之后,中美两边都开始在网络层动手了。
OpenAI手握五家美国芯片和云巨头的全产业链支撑,选择在现有架构上做协议层优化;智谱联合清华和驭驯网络走产学研路径,直接从架构层重新设计。
两条路各自解决各自的问题,但共同指向一个判断:过去比的是谁能拿到更多卡,现在开始比谁能把已有卡组织得更有效率。
AI基建迎来效率时代
如果说OpenAI和智谱的共同点,是把网络推到AI基建台前,那么两家公司面对的资源约束其实完全不同。
今年5月,黄仁勋搭上特朗普的「空军一号」再度访华,英伟达在中国市场的姿态看上去比以往任何时候都积极。但姿态归姿态,H100和GB200仍受严格限制;H200虽然出现了一定松动,能否形成稳定、规模化的供给仍充满不确定性。
与此同时,国产算力正在快速补位。
智谱在2月发布算力合伙人计划时,明确提到已「多次对国产芯片集群进行扩容」。GLM-5本身也已完成与华为昇腾、寒武纪、摩尔线程等多家国产芯片平台的推理适配。
中国AI公司手里的牌,已经从单一的英伟达GPU,变成了国产芯片与存量英伟达芯片混合的多元组合。
ZCube的价值恰好在这里:它解决的是网络层的效率问题,并不绑定特定GPU产品和生态。无论集群里跑的是昇腾、寒武纪还是英伟达,只要规模上千卡、走PD分离推理,网络拥塞的瓶颈就客观存在。
ZCube省掉的三分之一交换机和光模块成本,在万卡规模下是2亿到6亿元级别的真金白银。更重要的是,这类架构优化并不依赖等待下一代GPU供给放开,而是从现有系统里直接挖效率。
ZCube还没有走出智谱成为行业通用方案,但论文、生产数据和自动化部署工具链已经把一件事讲清楚了:网络架构优化不只是实验室里的拓扑设计,而是可以直接进入生产集群、转化为吞吐和成本收益的工程能力。
当全球AI基建从单纯堆卡进入系统效率时代,这种从架构层向内挖潜的能力,正在成为中国AI产业的一张新牌。
- 责任编辑: 陈济深 
-
网易创新业务Q1净收入15亿元,严选十周年宠物业务焕新升级
2026-05-21 17:24 -
这款攀爬机器人,为何敢定义物流料箱仓储的“终极形态”
2026-05-21 14:20 产经 科创 -
SpaceX继续推进上市,马斯克要当万亿美元富豪?
2026-05-21 13:17 产经 科创 -
亚玛芬的“运动身份”越来越好卖了
2026-05-21 12:56 观网财经-消费 -
“酱油老二”经历至暗一年,空降老将能让厨邦重回牌桌吗
2026-05-21 08:52 -
抖音辟谣“2000万营销”传言,澄清“剧宣导致直播封禁”不实
2026-05-21 00:12 观网财经-互联网 -
今年618,大厂AI军备竞赛的第一次场景实操练兵
2026-05-20 22:13 观网财经-互联网 -
药店卖面膜刷医保的口子,被一张白名单堵死了
2026-05-20 22:13 观网财经-健康 -
与大疆贴身肉搏,影石拿什么赢?
2026-05-20 21:30 产经 科创 -
观游:一周卖出百万份?我们跟《吸血鬼爬行者》的制作人聊了聊
2026-05-20 20:42 观网财经-互联网 -
高德红绿灯倒计时宣布出海,国外导航产品尚无此功能
2026-05-20 20:42 观网财经-互联网 -
科技巨头同日押注Agent化,阿里云交出“芯-云-模型-推理”全栈答卷
2026-05-20 17:43 观网财经-互联网 -
刚赚到钱的B站,把10亿砸向了AI
2026-05-20 15:50 观网财经-互联网 -
一季度云厂商增长斜率趋缓,涨价影响还在后面
2026-05-20 15:24 人工智能 -
美车主为测试特斯拉涉水模式驶入湖内被困,离岸仅数米
2026-05-20 08:41 -
豪掷24亿押注诊断赛道:广药集团“收编”达安基因
2026-05-19 21:01 观网财经-健康 -
五周内五冠:给张雪一个支点,看看我们撬动了什么
2026-05-19 21:00 产经 科创 -
抖音电商618开售前三日:千万元直播间数量同比增长116%
2026-05-19 20:27 观网财经-互联网 -
菜鸟加码欧美,在美国、德国上线“晚必赔”
2026-05-19 20:27 观网财经-互联网 -
三星奖金被友商吊打?4万多员工不干了!集体罢工逼宫管理层
2026-05-19 20:27 产经 科创
相关推荐 -
“中国才没有兴趣迎合法国” 评论 54
俄军会打波罗的海国家?美军司令:没有的事 评论 45
“再不改革,10年后美国富人只能去中国看癌症了…” 评论 120
改口复改口?特朗普又说谈成了不打了…伊朗:否认 评论 127
为何美国人不爱足球?答案在这里 评论 144最新闻 Hot-
“中美G2格局,中等强国插不进脚”
-
“尽管美国围追堵截,‘中国’无处不在”
-
Anthropic:最先进模型,外国人禁用
-
梅德韦杰夫:统统粉碎
-
“杀鸡儆猴”
-
1岁男童因感冒输液后离世,海南乐东通报
-
“中国才没有兴趣迎合法国”
-
制裁菲防长影响对菲援助?外交部回应
-
新氧发布《马思纯,享年三十七岁》后道歉,马思纯方起诉
-
伊朗方面发布“战争杯”海报:战争常客成了世界杯东道主
-
外交部:特奥多罗等人肆意妄为,必然会自食恶果
-
“疑似眼疾入院苦等36小时,英患者才得知可能是脑瘤”
-
俄军会打波罗的海国家?美军司令:没有的事
-
伊斯兰堡协议谈好了?
-
美方最后关头叫停,加官员:不会卑躬屈膝
-
“韩国将申请加入CPTPP”
-

观察员
上海市互联网违法与不良信息举报中心