-
黄仁勋:推理拐点已至,2027年AI芯片将带来万亿美元收入
这就是成果。数据来自SemiAnalysis,这是迄今为止对AI推理进行的规模最大、最全面的扫描。你们看到左边这边,每瓦特Token数(Tokens per Watt)非常重要,因为每个数据中心、每个工厂本质上都是受电力限制的。一个1吉瓦(GW)的工厂永远不可能变成2吉瓦,这是物理定律、原子定律的限制。因此,对于一个1吉瓦的数据中心,你想要驱动最大数量的Token,也就是该工厂的产出。所以,你希望在这条曲线上处于越高越好的位置。
X轴代表的是交互性,也就是推理的速度。推理速度越快,响应自然就越快。但更重要的是,推理速度越快,你就能运行更大的模型,处理更多的上下文,思考更多的Token。这根轴同时也代表了AI的智能程度。
而这根纵轴,代表的是AI的吞吐量。请注意:AI越聪明(模型越大、思考越深),你的吞吐量往往就越低。这合乎逻辑吗?当然,因为你在进行更长时间的思考。所以,横轴是速度,纵轴是吞吐量,而斜向的维度则是智能。
·英伟达有世界级Token成本,未来每家公司都要思考Token工厂效率
我要再次强调这一点,这非常重要。虽然接下来我要讲的内容可能会让大家觉得有些“折磨”,但它太关键了。从今天起,全世界的CEO们都会按照我即将描述的方式来审视自己的业务。因为这就是你的Token工厂,这就是你的AI工厂,这就是你的收入来源。对此,毫无疑问。
在这个坐标系中,横轴是吞吐量,纵轴是智能度(或者说在给定数据中心功率下的每瓦特证明能力)。吞吐量越高,你生产的Token就越多。而在这张图的另一侧,是成本。
请注意,英伟达拥有世界上最高的性能。这一点没人会感到惊讶。令人惊讶的是,仅仅在一代产品的时间内——按照摩尔定律,晶体管数量的增长本该带来50%的性能提升;即便是两倍摩尔定律,或许也只能带来1.5倍的预期性能提升(相对于Hopper H100而言)。然而,没人预料到我们会实现35倍的提升。
去年此时,我曾说过,英伟达的Grace Blackwell搭配NVLink 72系统,其每瓦特性能提升了35倍。当时没人相信我。随后,SemiAnalysis发布了报告,Dylan Patel引用了一句话,他“指责”我在压低调门(sandbagging)。他说:“Jensen在留一手,实际上应该是50倍。”他说得没错。
因此,我们的每Token成本是世界上最低的,无人能及。我以前说过:如果你的架构错了,哪怕它是免费的,那也不够便宜。原因在于,无论发生什么,你都必须建造一个吉瓦(GW)级的数据中心。你必须建设这样一个吉瓦级的工厂。而在未来15年里,摊销在这个吉瓦工厂上的成本大约是400亿美元。即便你还没放入任何设备,这400亿美元就已经投入了。所以,你最好确保在这个庞然大物上部署最好的计算机系统,从而获得最低的Token成本。
英伟达的Token成本是世界级的,目前基本上不可触及。之所以能做到这一点,归功于极致协同设计(Extreme Co-design)。我很高兴他也点名提到了我们,称我们为“Token之王”。过去有“美猴王”(Monkey King),现在是“Token之王”。
正如我之前所说,我们采取“垂直整合,水平开放”的策略。我们将所有的软件和技术进行垂直整合,然后以各种打包形式,水平开放地集成到全球的推理服务提供商中。这些公司增长迅猛,简直像烟花一样爆发。Fireworks AI的林君叡也来到了现场。它们在过去一年里增长了100倍。它们就是Token工厂。对于它们而言,工厂的效率、性能以及Token的生产成本能力,就是一切。
看看发生了什么:我们更新了它们的软件,硬件系统保持不变。请注意它们的Token速度变化——从更新前的平均每秒约700个Token,跃升至近5000个Token,提升了7倍。
这就是我之前提到的“极致协同设计”的惊人力量。这也凸显了“工厂”的重要性——你的数据中心。它过去是存储文件的中心,现在则是生成Token的工厂。无论怎样,你的工厂都是受限的。每个人都在寻找土地、电力和厂房外壳。一旦建成,你就受到了电力的限制。在这种受电力限制的基础设施中,你必须确保你的推理效率达到极致。因为你要知道,推理是你的工作负载,Token是你的新大宗商品,而计算就是你的收入。你必须确保架构在未来尽可能优化。
每一家云服务提供商(CSP)、每一家计算机公司、每一家云公司、每一家AI公司,乃至每一家公司,都在思考他们Token工厂的效率。这就是你未来的工厂。我之所以如此确信,是因为在座的每一位都由智能驱动。而在未来,这种智能将由Token来增强。
让我展示一下我们是如何走到今天的:
2016年4月6日(十年前):我们推出了DGX-1,世界上第一台专为深度学习设计的计算机。它由8块Pascal GPU通过第一代NVLink连接而成,单台算力达170 TFLOPS,专为AI研究人员打造。
Volta架构:我们引入了NVLink Switch,将16块GPU以全互联带宽连接,作为一块巨大的GPU运行,这是巨大的一步。
2020年:随着Mellanox加入英伟达,模型规模持续增长,数据中心需要成为一个单一的计算单元。DGX A100 SuperPOD成为第一台结合了Scale-up(纵向扩展)和Scale-out(横向扩展)架构的GPU超级计算机。NVLink 3负责Scale-up,ConnectX-6和Quantum InfiniBand负责Scale-out。
Hopper架构:首款配备FP8 Transformer引擎的GPU,开启了生成式AI时代。配合NVLink 4、ConnectX-7、BlueField-3 DPU和第二代Quantum InfiniBand,彻底变革了计算。
Blackwell架构:重新定义了AI超级计算机的系统架构。通过NVLink Switch连接72块GPU,提供130 TB/s的全互联带宽。计算托盘集成了Blackwell GPU、Grace CPU、ConnectX-8和BlueField-3 DPU。Blackwell在以太网之上运行,全力推动三大扩展定律:预训练、后训练和推理。
Vera Rubin架构(现在):专为Agent AI(代理智能)的每一个阶段而设计,推进包括CPU、存储、网络和安全性在内的所有计算支柱。
Vera Rubin平台拥有NVLink 72,提供3.6倍于前代的FLOPS算力,以及260 TB/s的全互联NVLink带宽。它是加速Agent AI时代的引擎。
Vera CPU机架:专为编排和Agent工作流设计。
STX机架:AI原生存储,基于BlueField-4构建,通过Spectrum-X和共封装光学(CPO)技术进行Scale-out,提高了能效和弹性。
groq LPX机架(令人瞩目的新成员):与Vera Rubin紧密连接。groq LPU拥有巨大的片上SRAM,作为一个Token加速器,为已经极快的Vera Rubin进一步提速。
它们共同实现了每兆瓦吞吐量提升35倍。
全新的Vera Rubin平台:7颗芯片,5个机架级计算机,组成一台革命性的Agent AI超级计算机。在短短10年内,算力提升了4000万倍。
在过去的好日子里,当我提到Hopper时,我只需举起一块芯片。那很可爱。但这是Vera Rubin。当我们想到Vera Rubin时,我们想到的是整个系统——完全垂直整合,软件端到端延伸,作为一个巨大的系统进行优化。
它之所以专为Agent系统设计,原因很明确:Agent最重要的工作负载就是思考。大语言模型正变得越来越大,生成Token的速度越来越快,思考也越来越快。但同时,它必须访问内存。它会猛烈地冲击内存——KV Cache、结构化数据(如CUDA DF)、非结构化数据(如CUDA VS)。它也会猛烈地冲击存储系统,这就是我们要重构存储系统的原因。
此外,Agent还要使用工具。与人类能容忍较慢的电脑不同,AI希望工具尽可能快。这些工具包括网页浏览器,未来还可能是云端的虚拟PC。这些PC和计算机必须尽可能快。
为此,我们创造了一种全新的CPU,专为极高的单线程性能、极高的数据输出、卓越的数据处理能力以及极致的能效而设计。它是世界上唯一使用LPDDR5的数据中心CPU,其单线程性能和每瓦特性能无与伦比。我们构建它,就是为了配合这些机架进行Agent处理。
这就是Grace Blackwell……哦不,是Vera Rubin,它在哪儿?在这儿。这就是Vera Rubin系统。请注意,与上次相比,它实现了100%液冷,所有线缆都消失了。过去需要两天安装的系统,现在只需两小时。制造周期时间将大幅缩短。
这也是一台由热水(45摄氏度)冷却的超级计算机。这减轻了数据中心的压力,将原本用于制冷的成本和能源释放出来,供系统本身使用。这是我们的“秘密酱料”。我们是世界上唯一构建了第六代Scale-up交换系统的公司。这不是以太网,也不是InfiniBand,这是NVLink,第六代NVLink。这做起来极其困难,真的非常难。我为NVLink团队感到无比自豪。
这是全新的groq系统,我会多展示一些。这个系统包含8颗芯片,这是LP30。世界从未见过这样的东西。以前见过的都是V1版本,这是第三代,而且我们已经量产。稍后我会展示更多。
这是世界上第一款CPO(共封装光学)Spectrum-X交换机,也已全面量产。光学组件直接封装在芯片上,直接与硅接口,电子转换为光子,直接连接到芯片。我们与台积电(TSMC)共同发明了这项工艺技术。目前唯一量产的产品名为Coupe,它具有彻底的革命性。英伟达的Spectrum-X已全面量产。
这是Vera系统,其每瓦特性能是当今任何CPU的两倍。它也已在量产中。你知道,我们从未想过会单独出售CPU。但现在我们正在大量单独销售CPU。这肯定将成为我们数十亿美元的业务。我对我们的CPU架构师感到非常满意。我们设计了一款革命性的CPU。
这是由Vera CPU驱动的CX9,以及搭载BlueField-4的STX,这是我们新的存储平台。
这四个就是机架,它们相互连接。每一个机架,比如这个NVLink机架,我之前给大家看过。它非常重,而且似乎每年都在变重,我想是因为里面的线缆越来越多。这就是NVLink机架。由于这种布线系统在创建数据中心时效率极高,我们决定将其技术也应用于以太网。所以这是以太网机架,一个机架内有256个液冷节点,同样通过这些惊人的连接器相连。
大家想看看Rubin Ultra吗?
这就是Rubin Ultra计算节点。与水平滑入的Rubin不同,Rubin Ultra进入了一个全新的机架,称为Kyber。这使得我们能在一个NVLink域中连接144块GPU。
这就是Kyber机架。我肯定能把它举起来,但我不会(笑)。它相当重。
这是一个计算节点,垂直滑入Kyber机架。这是它连接的地方——中板(Mid-plane)。顶部的四个NVLink连接器滑入并连接到这里,使其成为一个节点。每一个插槽(Swag/Slot)都是一个不同的计算节点。
最神奇的部分在这里:这是中板。在中板的背面,不再是传统的线缆系统(铜缆在传输距离上有限制),我们现在拥有这个系统来连接144块GPU。
这是新的NVLink,它也垂直放置,连接到背面的中板上。前面是计算,背面是NVLink交换机。这就构成了一台巨大的计算机。
这就是Rubin Ultra。刚才那个小插曲……当你不练习时就会发生这种事。好吧,慢慢来,别受伤。
·数据中心已是Token工厂,每瓦特Token数将直接转化为收入
你们看到了这张幻灯片。只有在英伟达的主题演讲中,你才会看到去年的幻灯片再次出现。我这么做是因为我想再次强调,去年告诉过你们的一件非常重要的事。
这可能是关乎AI工厂未来最重要的一张图表。全世界的每一位CEO都将追踪并深入研究它。实际情况比这复杂得多,它是多维度的,但你们将研究AI工厂的吞吐量和Token速度。这是在同等功率(ISO Power)下的吞吐量和Token速度,因为你的电力就是那么多。对于你的工厂而言,永远都要关注这两个指标。这项分析将直接转化为你的收入。你今年所做的努力,将在明年精确地体现为你的收入。这张图表就是核心所在。
纵轴是吞吐量,横轴是Token速率。今天展示它,是因为我们现在能够提高Token速度,同时模型规模也在增大。Token长度(上下文长度)根据不同的应用用例等级,正从可能的10万Token输入长度增长到数百万。输入Token长度在增长,输出Token长度也在增长。所有这些因素最终都将影响未来Token的市场营销和定价。
Token是新的大宗商品。像所有大宗商品一样,一旦达到拐点,一旦成熟或正在成熟,它就会细分为不同的层级:
高吞吐量、低速度的层级可用于免费层(Free Tier)。
下一层级可能是中等层级,模型更大,速度更快,输入上下文更长,对应不同的价格点。
你可以看到各种不同的服务:这个是免费的;第一层可能是每百万Token 4美元;下一年可能是6美元。
你希望能够不断推高这个边界。因为模型越大、越聪明,输入Token上下文越长,相关性越高;速度越快,思考迭代的时间越长,AI模型就越聪明。当你拥有更聪明的AI模型时,每一次点击(升级)都允许你提高价格。所以这里是45美元。也许有一天会有一个高级模型,提供高级服务,允许你生成极高的Token速度,因为你在关键路径上,或者你在进行非常长期的研究。那时,每百万Token 150美元也不算什么。
让我们换算一下:假设你作为一名研究人员,每天使用5000万Token,价格为每百万Token 150美元。事实证明,对于一个研究团队来说,这甚至不算什么大数目。所以我们相信这就是未来。这就是AI想要去的地方,也是它今天所在的位置。它必须从这里开始,建立价值,证明用途,并变得越来越好。
在未来,你会看到大多数服务涵盖所有这些层级。
这是Hopper的起点(移动图表)。这是50,这是100。Hopper看起来是这样。你可能会预期下一代产品会更高,但没人预料到会高出这么多。
这是Grace Blackwell。Grace Blackwell所做的是:在你的免费层级,极大地提高了吞吐量;而在你主要通过服务变现的层级,吞吐量提高了35倍。这与任何公司生产的任何产品并无二致:层级越高,质量越高,性能越强,但容量越低。这与世界上任何其他业务都一样。因此,我们能够将这一层级提升35倍,并引入了一个全新的层级。这就是Grace Blackwell带来的巨大飞跃。
现在,这是Vera Rubin。想想刚刚发生了什么:在每一个层级,我们都提高了吞吐量。而在你平均售价(ASP)最高、最有价值的细分层级,我们将其提高了10倍。这非常难做到,真的是极其困难。这是NVLink 72的优势,是超低延迟的优势,是我们通过极致协同设计将整个区域向上推移的成果。
那么,从客户角度来看,这意味着什么?
假设我将所有这些都乘以一个系数。假设我将电力的25%用于免费层,25%用于中等层,25%用于高层,25%用于高级层。我的数据中心只有1吉瓦。我可以决定如何分配这些层级:免费层吸引更多客户,高级层服务最有价值的客户。这种组合的乘积基本上就是你的收入。在这个简化的例子中,Blackwell能产生的收入是前代的5倍。而Vera Rubin,也能产生5倍于Blackwell的收入。所以,你应该尽快升级到Vera Rubin。原因是你的Token成本下降了,吞吐量上升了。
但我们想要更多。
回到这张图。正如我所说,这种吞吐量需要大量的FLOPS,而这种低延迟、高交互性需要巨大的带宽。计算机不喜欢极端的FLOPS和极端的带宽,因为任何系统的芯片表面积都是有限的。因此,优化高吞吐量和优化低延迟实际上是相互矛盾的。
这就是我们与groq结合后发生的情况。
我们收购了一支研发groq芯片的团队并授权了该技术,一直致力于系统集成。这就是结果:在最有价值的层级,我们现在将性能提高了35倍。
这张简单的图表揭示了英伟达迄今为止在绝大多数工作负载中如此强大的原因:在这个区域(高吞吐量区),吞吐量至关重要。NVLink 72具有颠覆性,它是完全正确的架构,甚至在你加入groq后也难以被超越。
然而,如果你将这张图表向右延伸,说你想要的服务不是每秒400个Token,而是每秒1000个Token。突然间,NVLink 72就显得力不从心了,无法达到那个速度。我们没有足够的带宽。
这就是groq发挥作用的地方。当我们推展到这个极限时,它甚至超越了NVLink 72的能力范围。
如果将此转化为相对于Blackwell的收入:Vera Rubin是5倍。如果你的大部分工作负载是高吞吐量,我会坚持使用100%的Vera Rubin。如果你的很多工作负载是代码生成和非常高价值的工程Token生成,我会添加groq。我会在总数据中心的25%中添加groq,其余75%全部使用Vera Rubin。这让你了解如何将groq添加到Vera Rubin中,进一步扩展其性能和价值。
这就是对比。groq之所以如此吸引我,是因为它的计算系统是一个确定性数据流处理器(Deterministic Data Flow Processor)。它是静态编译的,由编译器调度。这意味着编译器预先计算出何时进行计算,确保数据和计算在同一时间到达。所有这些都是提前静态完成,并通过软件完全调度,没有动态调度。
该架构设计了海量的片上SRAM,专为推理这一种工作负载而生。事实证明,这正是AI工厂的工作负载。随着世界继续增加高速Token的生成量,特别是那些超智能Token,这种集成的价值将变得更高。
这是两种极端的处理器:
一颗groq芯片:500 MB SRAM。
一颗Vera Rubin芯片:288 GB HBM显存。
要让groq芯片容纳Rubin的参数规模以及所有必须伴随的KV Cache,需要大量的groq芯片。这限制了groq真正走向主流、真正腾飞的能力,直到我们有了一个绝妙的主意。
我们通过一款名为Dynamo的软件,彻底重构了推理方式,实现了推理的解耦(Disaggregated Inference)。我们重新设计了推理流水线,将最适合Vera Rubin的工作放在上面,而将解码生成(Decode Generation)——即低延迟、受带宽限制的那部分工作负载——卸载给groq。
于是,我们统一了两个差异极大的处理器:一个用于高吞吐量,一个用于低延迟。
但这并没有改变我们需要大量内存的事实。所以,对于groq,我们只需添加大量的groq芯片来扩展其内存容量。
想象一下,对于一个万亿参数模型,我们必须将所有参数存储在groq芯片中。然而,它旁边坐着NVIDIA Vera Rubin,我们可以用它来持有处理所有这些Agent AI系统所需的海量KV Cache。
这基于解耦推理的理念:我们做预填充(Prefill,这部分较容易),同时也紧密集成解码(Decode)。
解码中的注意力机制(Attention)部分在NVIDIA Vera Rubin上完成,这需要大量的运算。
解码中的前馈网络(Feed Forward Network)部分,即Token生成部分,在groq芯片上完成。
两者通过今天的以太网紧密耦合,使用一种特殊模式将延迟降低约一半。这种能力使我们能够集成这两个系统。我们在其上运行Dynamo——这款用于AI工厂的不可思议的操作系统。结果是性能提升了35倍,更不用说带来了世界前所未见的Token生成推理性能的新层级。
这就是包含groq的Vera Rubin系统。
我要感谢三星(Samsung),他们为我们制造了groq LP30芯片,并且正在全力以赴地生产。我非常感激你们。groq芯片已投入生产,我们将在下半年,大约在第三季度发货。
你们可能觉得,很难再想象还有更多的客户了。但真正令人振奋的是:Grace Blackwell的早期采样因为 NVLink 72 的复杂整合而颇具挑战,但 Vera Rubin 的采样进展却异常顺利。事实上,Satya(纳德拉)已经发短信告诉我,第一台Vera Rubin机架已经在 Microsoft Azure上运行起来了。我为他们感到超级兴奋。
我们将开足马力生产这些系统。我们的供应链现在已经具备每周制造数千台此类系统的能力——这意味着在我们的供应链内部,每月就能建成多个吉瓦(GW)级的AI工厂。所以,我们在全力生产GB300机架的同时,也将源源不断地输出Vera Rubin机架。
各种CPU的表现也极其成功。原因在于,AI需要使用工具,而工具的使用离不开CPU。Vera CPU正是为这一“甜蜜点”完美设计的。它是下一代数据处理的理想之选。Vera CPU加上BlueField-4 DPU,再连接到CX9,构成了完整的BlueField-4栈。全球100%的存储行业 都加入了这一系统。原因很简单:他们都看到了同样的未来——存储系统将遭受前所未有的冲击。过去是人类通过 SQL 使用存储系统,未来将是 AI 直接使用存储系统。这将包括 cuDF 加速存储、cuVS 加速存储,以及至关重要的 KV Cache(键值缓存)。
这就是Vera Rubin系统。
令人惊叹的是,仅仅两年时间,在一个吉瓦的工厂里,利用我之前展示的数学逻辑——按照摩尔定律,我们本应只是在晶体管数量、FLOPS算力或带宽上实现几倍的线性增长。但凭借这一架构,我们将Token生成速度从每秒200万提升到了7亿,实现了350倍的增长!
这就是极致协同设计(Extreme Co-design)的力量。这就是我所说的:我们在垂直方向上进行整合与优化,然后在水平方向上开放,让每个人都能受益。
这是我们的路线图,快速过一下:
Blackwell已经在这里。Oberon系统:在Rubin时代,我们保留了Oberon系统。我们始终保持向后兼容,如果你不想做任何改变,可以直接沿用新架构。标准的铜缆Scale-up机架系统Oberon依然可用。通过Oberon,我们也可以使用光互联进行Scale-up,扩展至 NVLink 576。
关于“英伟达是用铜缆 Scale-up 还是光纤 Scale-up?”的讨论很多。答案是:两者都做。我们将通过Kyber机架实现NVLink 144的铜缆互联;同时通过Oberon上的光互联技术,将NVLink 72扩展至NVLink 576。
下一代 Rubin Ultra:Rubin Ultra芯片即将问世。我们还有一款全新芯片LP35,它将首次Incorporate英伟达的NVFP4计算结构,再带来数倍的速度提升。
Oberon NVLink 72光互联Scale-up:它使用了Spectrum-6,这是世界上第一款共封装光学(CPO)交换机,且已全部量产。
再下一代:Feynman。Feynman拥有全新的GPU,当然也有全新的LPU——LP40。这是英伟达与Groq 团队联合打造的巨大飞跃,结合了双方的规模与技术,简直不可思议。
还有一款全新的CPU,代号Rosa(取自 Rosalind Franklin,同时也呼应 BlueField 系列),搭配下一代SuperNIC CX10 和 BlueField-5。我们将拥有Kyber(铜缆 Scale-up)以及Kyber CPO(共封装光学 Scale-up)。这是历史上第一次,我们将同时利用铜缆和共封装光学进行Scale-up。
很多人问我:“Jensen,铜缆还重要吗?”答案是:重要。“你会用光纤Scale-up吗?” 会。“你会用光纤Scale-out吗?” 也会。
对于生态系统的每一位伙伴,我们需要巨大的产能——无论是铜缆、光纤还是 CPO。这就是我们与大家共同奠定基础的原因,以支撑这种级别的增长。Feynman 将包含所有这些。
每年,全新的架构。
很快,英伟达就从一家芯片公司转变为一家AI工厂公司、AI基础设施公司、AI计算公司。这些系统不仅仅是硬件,我们现在是在构建整个AI工厂。在这些工厂中,有太多的电力被浪费了。我们要确保这些AI工厂以最佳方式设计和构建。
过去,大多数组件从未相遇。作为技术供应商,我们彼此互不相识,直到在数据中心现场才碰面。这种情况不能再发生了。我们正在构建极其复杂的系统,必须在虚拟空间中提前相遇。
因此,我们创建了Omniverse和Omniverse DSX World平台。在这里,我们所有人都可以在虚拟系统中相遇,共同设计这些吉瓦级的AI工厂。我们拥有针对机架的机械、热、电和网络仿真系统。这些仿真系统与生态系统中令人惊叹的工具公司集成。我们还连接到电网,以便相互交互、交换信息,从而相应地调整电网功率和数据中心功率,节约能源。
在数据中心内部,利用Max-Q技术,我们可以动态调整系统,协调电力、冷却以及各种技术,确保不浪费每一瓦电力,以最优速率运行,交付巨大的Token吞吐量。
毫无疑问,这里存在2倍的优化空间。而在我们谈论的规模下,这2倍是巨大的。我们称之为NVIDIA DSX平台。就像我们所有的平台一样,它包含硬件层、库层和生态系统层。
历史上最伟大的基础设施建设正在进行中。世界正在竞相建设芯片系统和AI工厂,每延迟一个月,就意味着数十亿美元的收入损失。AI工厂的收入等于每瓦特Token数。在电力受限的情况下,每一瓦未使用的电力都是流失的收入。
NVIDIA DSX是一个Omniverse数字孪生蓝图,用于设计和运营AI工厂,以实现最大的Token吞吐量、弹性和能源效率。
开发者通过多个API连接:DSX-M用于物理、电气、热和网络仿真;DSX Exchange用于AI工厂运营数据;DSX Flex用于电网与数据中心之间的安全动态电力管理;DSX Max-Q用于动态最大化Token吞吐量。
流程始于由NVIDIA和设备制造商提供的“仿真就绪”资产,由PTC Windchill PLM管理。
然后在 Dassault Systèmes 3DEXPERIENCE 中进行基于模型的系统工程。Jacobs 将数据导入其定制的 Omniverse 应用程序以完成设计。
使用领先的仿真工具进行测试:Siemens Star-CCM+ 用于外部热仿真,Cadence Reality 用于内部热仿真,Ansys 用于电气仿真,以及 NVIDIA Network Simulator。
通过 Procore 进行虚拟调试,以确保加速施工时间。
当站点上线时,数字孪生体成为操作员。AI 代理 与 DSX Max-Q 协同工作,动态编排基础设施。Phadrous 代理(注:此处可能是特定命名,意为“光/亮”相关)监控冷却和电气系统,向 Max-Q 发送信号,持续优化计算吞吐量和能效。Emerald 代理 解读实时电网需求和压力信号,并通过 DSX 动态调整电力。
NVIDIA 与合作伙伴生态系统正在全球范围内竞相建设 AI 基础设施,确保极致的弹性、效率和吞吐量。
这太不可思议了,对吧?Omniverse旨在容纳世界的数字孪生,从地球开始,到各种规模的数字孪生。我们拥有如此棒的合作伙伴生态系统。
我要感谢你们所有人。这些公司在几年前对我们来说大多是陌生的,但现在我们紧密合作,共同构建世界上见过的最大的计算机,并且是以行星规模来构建。NVIDIA DSX 就是我们新的AI工厂平台。
接下来我只花很少的时间,但我们要走向太空。我们其实已经在太空了。Thor芯片已获得辐射认证,并应用于卫星成像。未来,我们将在太空中建设数据中心。当然,这在太空中非常复杂。我们正在与合作伙伴开发一款名为Vera Rubin Space-1的新计算机,它将进入太空并启动太空数据中心。太空中没有传导,没有对流,只有辐射。我们必须想出如何在太空中冷却这些系统,但我们有很多优秀的工程师正在攻克这一难题。
·每家公司都将需要OpenClaw策略,未来软件公司将是代理即服务
让我谈谈一些新事物。
Peter Steinberg就在这里,他写了一个软件叫OpenClaw。我不知道他是否意识到这有多么成功,但其重要性是深远的。OpenClaw现在是人类历史上最受欢迎的开源项目,而且仅用了几周时间就达到了这一成就。它超越了Linux花了30年时间的历程。它就是这么重要。
我们现在宣布对它提供支持。让我简单地介绍一遍,向你们展示一点东西。你只需要这样做:在控制台输入命令,它就会找到 OpenClaw,下载并为你构建一个AI代理,然后你可以告诉它做任何你需要做的事。
刚刚展示的内容令人难以置信,让大家都能理解。但让我们想想发生了什么。OpenClaw是什么? 它是一个代理系统(Agentic System)。它调用并连接大语言模型。它管理资源:可以访问工具、文件系统、大语言模型。它能进行调度,执行Cron任务。它能将你给出的提示词(Prompt)分解为一步步的操作,并派生子代理。它拥有 I/O(输入/输出):你可以用任何模态与它交流(说话、手势等),它也能通过短信、邮件等方式给你发消息。
基于此,你可以说:事实上,它是一个操作系统。我刚才用来描述它的语法,就是描述操作系统的术语。OpenClaw本质上开源了代理计算机的操作系统。这就好比 Windows 让我们能够创建个人电脑,现在 OpenClaw让我们能够创建个人代理(Personal Agents)。其影响是不可估量的。
首先是采用率,这本身就说明了一切。但最重要的是:每一家公司,每一家软件公司,每一家科技公司,CEO们现在都要问自己:“你的OpenClaw策略是什么?”
就像我们需要Linux策略,需要 HTTP/HTML 策略(开启了互联网),需要Kubernetes策略(开启了移动云)一样,今天世界上的每一家公司都需要一个OpenClaw策略和代理系统策略。这是新的计算机。
激动人心的部分来了。
在OpenClaw之前,企业IT是这样的:之所以叫“数据中心”,是因为这些大房间、大楼里存放着数据、文件和企业的结构化数据。我们运行软件,提供工具和记录系统,将工作流编码其中,供人类或数字员工使用。这是旧的IT行业:软件公司创造工具,保存文件,GSI等咨询公司帮助企业整合这些工具。这些工具在治理、安全、隐私和合规方面依然极具价值,这一点不会变。
但在OpenClaw之后,在代理时代,情况将变成这样:
每一家IT公司,每一家公司,每一家SaaS公司,都将变成一家AgaaS 公司(Agentic-as-a-Service,代理即服务公司)。毫无疑问。令人惊叹的是,OpenClaw在恰到好处的时间给了行业恰好需要的东西。就像Linux、Kubernetes和HTML一样,它让整个行业能够抓住这个开源栈并以此大展身手。
但有一个问题:企业网络中的代理系统可以访问敏感信息,可以执行代码,还可以与外部通信。大声说出来,想想看吧:访问员工信息、供应链、财务敏感数据,并将其发送到外部。这显然是不能被允许的。
因此,我们与Peter合作,集结了世界上最顶尖的安全和计算专家,使OpenClaw变得企业级安全和私有化。我们称之为NVIDIA NemoClaw Reference OpenClaw(参考架构),它包含了所有代理AI工具包。
首先是一项称为OpenShell的技术,现已集成到OpenClaw中,使其具备企业就绪能力。这个参考栈我们称为NemoClaw。你可以下载、试用,并将其连接到全球所有SaaS公司的策略引擎(Policy Engine)。
你的策略引擎至关重要。NemoClaw(配合OpenShell)能够执行这些策略引擎。它拥有策略控制、网络护栏(Network Guardrail)和隐私路由器。因此,我们可以保护企业,防止代理在公司内部不安全地执行操作。我们还为代理系统添加了几项功能。最重要的是,你可以拥有自己的定制代理和定制模型。
这就是NVIDIA开放模型计划(Open Model Initiative)。我们在每一个AI模型领域都处于前沿:
Nemotron:用于语言、视觉理解、RAG 安全和语音。
Cosmos:用于实体 AI(Physical AI)、世界生成和理解的前沿模型。
AlpaMayo:全球首个具备思考和推理能力的自动驾驶 AI 组基础模型。
General Purpose Robots:通用人形机器人模型。
BioNemo:用于生物学、化学和分子设计的开放模型。
Earth-2:基于AI物理的天气和气候预测模型。
我们的模型不仅因为在排行榜上名列前茅、世界级优秀而向大家开放,更重要的是,我们绝不会停止工作。我们将每天持续改进。Nemotron-3之后将是 Nemotron-4;Cosmos-1之后是Cosmos-2;每一代都在进步。通过垂直整合和水平开放,我们让每个人都能加入AI革命。
我们在研究、语音、世界模型、通用人形机器人、自动驾驶和推理等多个领域的排行榜上均居首位。
当然,最重要的是这个:Nemotron-3在OpenClaw中的表现。看看前三名的排行,那是世界上最好的三个模型。我们处于最前沿。同样,我们也希望创建基础模型,让你们能够对其进行微调和后训练,将其转化为你们确切需要的智能。
这是Nemotron-3 Ultra。它将成为世界上有史以来最好的基础模型。这将帮助我们协助每一个国家构建其主权 AI(Sovereign AI)。我们正与众多公司合作,而今天我最激动人心的宣布之一就是:Nemotron联盟(Nemotron Coalition)。
我们对此全力以赴。我们已投入数十亿美元的 AI 基础设施,不仅为了开发推理库等所需的核心 AI 引擎,更为了创建能激活全球每一个行业的 AI 模型。大语言模型固然重要——人类智能怎么可能不重要?但在全球不同的行业、不同的国家,你需要有能力定制自己的模型。模型的领域截然不同:从生物学、物理学到自动驾驶汽车、通用人形机器人,当然还有人类语言。我们有能力与每一个地区合作,创建其领域特定的、属于他们自己的主权 AI。
今天,我们宣布成立一个联盟,与我们携手让Nemotron-4更加惊艳。这个联盟汇聚了一些非凡的公司:
Black Forest Labs:著名的图像生成公司。
Cursor:著名的编程公司,我们自己也在大量使用。
LangChain:拥有数十亿次下载量,用于创建定制代理。
Mistral AI:Arthur(注:指 Mistral CEO Arthur Mensch)提到的,我想他也在现场。这是一家不可思议的公司。
Perplexity:Perplexity 的计算机,绝对好用,每个人都该用,它太棒了。
Reflection:多模态代理系统。
Sarvam AI:来自印度的思考机器。
Mirror:Merari 实验室。
感谢这些不可思议的公司加入我们要。我说过,全球每一家企业、每一家软件公司都需要代理系统,需要代理策略,需要OpenClaw策略。他们都认同这一点,并正与我们合作,集成Nemo、Nemo Hands参考设计、NVIDIA代理AI工具包,当然还有我们所有的开放模型。一家接一家,数量众多,我们与在座的每一位合作。对此我深表感激。这是我们的时刻。
这是一次重塑,是企业的文艺复兴。这个行业将从现在的2万亿美元,成长为数万亿美元的产业。它提供的不再仅仅是供人使用的工具,而是那些在你专业领域中高度专业化的、可供租赁的代理(Agents)。
我完全可以想象,未来我们公司的每一位工程师都将拥有一个年度Token预算。他们的基本年薪可能是几十万美元,而我可能会在此基础上再给他们一半额度的Token,以便让他们的工作效率提升10倍。当然我们会这么做。这如今已成为硅谷的招聘利器之一:“这份工作附带多少Token?”原因很清楚:任何能访问Token的工程师都将更具生产力。而这些Token,将由我们与大家合作共建的AI工厂生产出来。
如今,每一家企业都建立在文件系统和数据中心之上;而未来的每一家软件公司都将是代理化(Agentic)的,它们将是Token的制造商。它们既是工程师的Token用户,也是所有客户的Token制造商。
OpenClaw事件的重要性怎么强调都不为过。它与HTML同等重要,与Linux同等重要。我们现在拥有了一个世界级的开源代理框架,所有人都可用来构建自己的OpenClaw策略。我们还创建了一个名为Nemo Hands的参考设计,供各位使用,它经过优化,性能卓越且安全可信。
说到代理,众所周知,它们能感知、推理和行动。我刚才谈到的大多数代理都是数字代理:它们在数字世界中行动、推理、编写软件。但我们也长期致力于实体化代理(Physically Embodied Agents)的研究,我们称之为机器人。它们所需的AI是实体AI(Physical AI)。
这里有一些重大发布。我简单过一下:现场有110台机器人,几乎全球每一家制造机器人的公司都在与英伟达合作,我想不出有哪一家不是。我们拥有三台计算机:训练计算机、合成数据生成与仿真计算机,以及位于机器人内部的机器人计算机。我们拥有所需的所有软件栈和AI模型。这一切都整合进了全球的生态系统中,我们的合作伙伴从西门子到Cadence,遍布各地,令人惊叹。
今天,我们宣布了一大批新合作伙伴:
自动驾驶:正如大家所知,我们在此领域耕耘已久。自动驾驶的“ChatGPT 时刻”已经到来。我们现在知道可以成功实现自动驾驶汽车。今天,我们宣布了NVIDIA Robo-Taxi Ready平台 的四家新合作伙伴:比亚迪(BYD)、现代(Hyundai)、日产(Nissan)、吉利(Geely)。加上之前的合作伙伴梅赛德斯、丰田、通用,每年将有1800万辆 汽车加入这一行列。未来,具备Robo-Taxi能力的汽车数量将令人难以置信。我们还宣布与Uber建立重大合作伙伴关系,将在多个城市部署并将这些车辆接入其网络。
工业机器人:ABB、Universal Robots、KUKA等众多机器人公司齐聚于此。我们正与他们合作,将我们的实体AI模型集成到仿真系统中,以便将这些机器人部署到全球各地的生产线上。
其他领域:卡特彼勒(Caterpillar)也在这里。甚至T-Mobile也在这里。原因在于,未来的无线电塔将不再是单纯的信号塔,而将成为NVIDIA Aerial AI RAN。这将是一座机器人无线电塔:它能对流量进行推理,调整波束成形,以尽可能节约能源并提高保真度。
现场有这么多的人形机器人,但我最喜欢的之一是迪士尼(Disney) 的机器人。不如让我给大家看几段视频。
(后续播放视频及现场机器人互动环节略)
本文系观察者网独家稿件,文章内容纯属作者个人观点,不代表平台观点,未经授权,不得转载,否则将追究法律责任。关注观察者网微信guanchacn,每日阅读趣味文章。
-
本文仅代表作者个人观点。
- 责任编辑: 郭涵 
-
可搭载10人!国产AC332直升机,有关键进展
2026-03-13 17:23 -
为什么欧美没有“养龙虾”的热潮?
2026-03-13 17:17 人工智能 -
全民养虾,为什么是中国
2026-03-10 08:39 心智观察所 -
今年将发射,嫦娥七号新任务:月球找水
2026-03-09 19:46 嫦娥奔月 -
长征八号甲遥八火箭转运至发射区,近期择期发射
2026-03-07 16:49 航空航天 -
我国科学家造出1纳米“记忆开关”
2026-03-07 11:01 科技前沿 -
“十五五”末,AI相关产业规模将超10万亿元
2026-03-06 15:28 人工智能 -
科技部部长:去年基础研究投入比重首次破7%
2026-03-05 14:02 2026两会 -
我国硬骨鱼类研究新突破!填补“从鱼到人”演化空白
2026-03-05 06:44 科技前沿 -
全国政协委员刘永好:农业也要积极拥抱AI
2026-03-03 16:26 2026两会 -
靳常青获国际超导领域最高奖
2026-03-03 15:50 科技前沿 -
效率突破15%!我国新一代太阳能电池有新进展
2026-02-26 22:17 科技前沿 -
默茨参访宇树,现场视频来了
2026-02-26 18:53 -
对AI的最新恐惧,一份“假设性”报告如何让美国股市狂泻
2026-02-26 08:37 心智观察所 -
中科院停止支付,涉30种外刊
2026-02-25 15:59 -
我国量子计算新突破!全球首个,开放线上下载
2026-02-25 15:01 -
“欧洲病夫”叩响宇树科技的门
2026-02-25 13:33 心智观察所 -
DeepSeek使用英伟达最先进芯片训练AI模型?外交部回应
2026-02-24 15:55 -
中国AI突破数学经典难题,回答300多年前“牛顿之问”
2026-02-15 14:20 -
相关推荐 -
“他拒绝了两个中间国的停火建议:美以必须先低头” 评论 75
印度执行美国制裁扣船,伊朗来翻旧账了 评论 64
特朗普扬言“为所欲为”,美国要对他下手? 评论 148
美方澄清:“特朗普威胁推迟访华”不实 评论 106
特朗普破防:这么点忙,都不帮? 评论 254最新闻 Hot-
果然有人跳脚,“印太装备都霍霍光,拿什么震慑?”
-
又被点名!“韩国进退两难,转头看向日本…”
-
逮着斯塔默不放:堂堂一个首相,这点儿事做不了主?
-
与美贸易协议无效?马来西亚贸工部:部长说错话了
-
特朗普“打包票”:以色列不会动用核武器
-
对古巴蠢蠢欲动,特朗普:“解放”或“接管”都行,我为所欲为
-
特朗普扬言“为所欲为”,美国要对他下手?
-
“福特”火灾如此严重:超30小时才灭,600多人无床可睡
-
护航帮不上忙,芬兰来和稀泥了
-
美方澄清:“特朗普威胁推迟访华”不实
-
老套路了!“但终有一天账单要自己付”
-
“韩国怀疑:为美国搞砸对华关系,错付了”
-
蒋超良被提起公诉
-
英伟达联手韩国:可不能让全球对中国技术上瘾
-
特朗普破防:这么点忙,都不帮?
-
众叛亲离!“谢邀,又不是我们挑起的战争”
-

观察员
上海市互联网违法与不良信息举报中心