-
心智观察所:独家对话|奇异摩尔祝俊东:破解AI算力基础设施瓶颈,互联大有可为
最后更新: 2025-07-05 11:06:02【对话/ 观察者网 心智观察所】
AI大模型对于超大规模算力集群的依赖,已然成为当代通识,尽管其中的GPU这一组成要素已被近乎奉上神坛,但算力集群的表现,依然极大程度上取决于其他软硬件要素的综合集成与优化,这一基本特点,正是中国产业界面对外部遏制的破局关键。
从大模型算法结构创新,到通信协议等软件层面打通异构混训,再到超大规模集群网络互联架构的软硬件创新,大量原始创新成果正在中国产业界涌现。
日前,心智观察所与奇异摩尔联合创始人、产品及解决方案副总裁祝俊东进行了一次深入交流。
这家定位于以互联为中心,为超大规模AI计算平台提供高性能互联解决方案的厂商,依托Chiplet和高性能RDMA技术,在这一领域走出了一条新路:
心智观察所:很高兴能有机会和您交流。说起AI大模型训推,我们知道在硬件上除了加速卡,网络互联架构也至关重要,能否请您先谈谈对目前技术趋势的观察?
奇异摩尔祝俊东:最近这几年,AI大模型确实发展很快,我们可以看到整个网络训练规模其实在不断增长。海外大模型训练集群规模已经从万卡级增长到10万卡乃至20万卡了,从国内来看,训练规模其实也比较大了,尽管没有那么高的单卡算力,但我们也看到了一个很好的发展趋势,包括现在涌现出非常火的DeepSeek。所以不管是国内还是国外,其实对于大模型的训练现在都是在快速发展的一个阶段。
在谈AI大模型算力集群前,我们先来看传统数据中心是怎么样的,它的网络架构相对比较简单,通用计算网络的话更多是一个多租户体系,服务上千万甚至更多的用户,共用一个云端数据中心。现在AI大模型的特点则是把一个非常大的集群用来服务于数量有限的大模型训练任务,这就对于算力硬件之间的互联提出了非常高的要求。比如传输带宽上,从以往100G/200G,现在在向400G/800G乃至1.6T演进,整个数据交换的规模如果是一个10万卡集群,那不管是我们讲北向Scale Out(网间互联)的网络,还是说南向Scale Up(GPU互联)的网络,都要做大量的数据交互,因此AI算力集群网络的性能、规模以及它的复杂性都是指数级上升。
从推理的需求来看,也在发生变化。过去单卡单用户或者单卡多用户的方案很流行,但最近一段时间我们看到推理系统的规模也在变得更大,像DeepSeek的云端推理集群已经到了几百卡的规模甚至上千卡。多机之间组成超节点(HBD)的方案正在快速增加,它对于scale up网络的要求非常高,这就是我们看到特别是在云端AI互联架构的一些发展。
心智观察所:我知道奇异摩尔是一家Chiplet和互联技术见长的企业,对于当前大模型训推的技术趋势,你们有什么样的回应?
奇异摩尔祝俊东:现在大家更多会讲集群算力,从集群算力来讲的话,我们可以把它分为几个层面。最微观的层面当然还是计算芯片本身,从芯片本身来说算力当然是越高越好,但你应该知道随着摩尔定律放缓,芯片本身的算力密度增长趋势也在放缓,所以各家大公司类似AMD、Intel不约而同采用Chiplet技术来把芯片做得性能更高、更复杂,在这个层面也就是片内互联,奇异摩尔会提供比方说Chiplet互联芯粒2.5D/3D IO Die、Die2Die IP,把芯片内部更多计算单元连接起来。这是第一个层面,通过这种方式让单芯片算力保持持续增长。
第二个层面就是刚刚说到的超节点,你可以理解成数据中心里面一个小的机柜集群,它通常由几台不同的服务器来组成一个小规模但是超高带宽的集群。这里面就会涉及到Scale Up的网络,英伟达这样的厂商可以自己做,但是对于其他厂商来说,这一块是一个相对比较大的短板,奇异摩尔可以提供一种GPU片间互联的Die(又名NDSA-G2G),通过这种方式帮助其他厂商用我们的技术把片内互联转成超节点之间的互联,这是第二个层面。
再往上第三个层面,就是大模型的训练和推理,特别是训练层面,你还是要构建更大规模的集群对吧?这就需要我们所说的智能网卡。AI训推集群比方说10万张卡,中间有大量的跨节点数据交互,它对网络数据交换性能要求非常高,所以我们另外一个产品就是基于AI原生的智能网卡,可以提供非常高的带宽,作为国产网卡替代主流国外厂商的高性能网卡。我们通过这三个层面的技术能力,可以为国内算力集群用户提供端到端互联架构解决方案,从片内到片间到网间。
心智观察所:RDMA(远程直接内存访问)技术也是当下算力集群网络的热门概念,能否再展开分享一些这方面的信息?
奇异摩尔祝俊东:这里面有几个方面,首先是性能,比如带宽、延时以及数据传输效率,我们通过高性能RDMA引擎能够达到800G传输速率、几百纳秒的延时,从性能来说是非常好的;第二呢是因为只有点对点的性能是不够的,因为特别是大规模训练的时候,其实有非常高的复杂网络需求,比如容易产生拥塞,而在我们的产品里引入了新的拥塞监测以及处理算法,能够极大提高拥塞处理效率;第三个是所谓的多路径传输,因为在复杂网络环境需要从多条路径传输,我们对于多径传输引入了优化算法,可以自动选择最适合的路径进行传输,对于常见的乱序问题,我们的产品引入了乱序重排的算法,可以满足网络对于乱序恢复的需求。通过这些技术就可以在有损大规模网络里有效部署RDMA方案,让十万卡甚至以上规模集群达到95%甚至更高传输效率。
标签 心智观察所- 原标题:独家对话|奇异摩尔祝俊东:破解AI算力基础设施瓶颈,互联大有可为 本文仅代表作者个人观点。
- 责任编辑: 李昊 
-
独家对话|朱融融:脊髓损伤修复,让我深感科技造福人类的力量
2025-07-05 09:33 心智观察所 -
谁在守护中国的能源咽喉?
2025-07-04 08:21 心智观察所 -
我国首个海水漂浮式光伏项目建成投用
2025-07-02 22:05 能源战略 -
2025世界人工智能大会:教育AI技术革新与女性数智赋能路径
2025-07-02 21:27 2025世界人工智能大会 -
WAIC 2025:AI技术与全球健康产业的破局与融合
2025-07-02 21:27 2025世界人工智能大会 -
WAIC 2025:AI赋能新型工业化的中国实践
2025-07-02 21:27 2025世界人工智能大会 -
2025世界人工智能大会:展现AI赋能文娱产业的中国式现代化实践
2025-07-02 21:27 2025世界人工智能大会 -
稀土牌还有这样打法?人民币稳定币的地缘政治设想
2025-07-02 14:01 心智观察所 -
德国对DeepSeek下手
2025-06-28 19:56 德意志 -
马斯克如何被自身思维武器困住
2025-06-27 08:10 心智观察所 -
神二十乘组第二次出舱圆满完成
2025-06-26 21:33 航空航天 -
答时代之问,呈中国之卷——WAIC 2025倒计时30天五大进展发布
2025-06-26 19:42 世界人工智能大会 -
我国自主研发、自主可控!新一代国产通用处理器发布
2025-06-26 17:11 中国精造 -
印度宇航员时隔41年重返太空,莫迪祝贺
2025-06-26 15:48 航空航天 -
填补多项国内空白,全国首艘氢电拖轮正式入列
2025-06-26 15:22 能源战略 -
高考生“想成为最顶尖人才”该怎么努力?王兴兴发文指点
2025-06-24 16:24 -
中国扫地机器人企业遇到的,不止是舆情危机
2025-06-24 13:51 心智观察所 -
打破垄断!我国这项核心技术实现重大突破
2025-06-21 20:47 科技前沿 -
MAGA手机,中国制造
2025-06-21 09:19 心智观察所 -
突破性进展!我国团队成功研发出这一关键器件
2025-06-18 18:14 科技前沿
相关推荐 -
呵呵,“‘民主国家’看不上中国技术”? 评论 134
普京访印:美国都在买,印度凭啥不能买? 评论 70
日本开发稀土担心中国干扰?日防相放话 评论 131
“美欧抢矿,遭殃的却是他们” 评论 15
美国又开炮欧盟:你们在“霸凌”美国军工! 评论 72最新闻 Hot-
呵呵,“‘民主国家’看不上中国技术”?
-
普京访印:美国都在买,印度凭啥不能买?
-
“白宫‘慌乱应对’,想赢中国,支持得到位啊”
-
国安战略报告迟迟未出,“美财长要求软化对华措辞”
-
自民党“黑金”丑闻“吹哨人”再出手,这次是高市
-
“彻底反转了,中国是发达国家,我们才是新兴国家”
-
“华德858”轮触礁断裂
-
机密通话曝光!“美国恐将背叛,你要小心”
-
“云冈石窟大佛冻得流鼻涕”,官方:将暂时封闭、处置渗水
-
“高市早苗更加不安了”
-
高善文离职后,又有分析师集体出走国投证券
-
台军又出意外,这次是炮弹砸了民宅
-
“中产、富裕阶层也去1元店”,特朗普还嘴硬
-
日本开发稀土担心中国干扰?日防相放话
-
“按下葫芦浮起瓢”,英伟达想重返中国市场又难了…
-

观察员
上海市互联网违法与不良信息举报中心