-
霍丹·奥马尔:用AI写100字邮件等于耗半升水?“数据中心焦虑”偏离了方向
AI工作负载对数据中心意味着什么
AI工作负载对数据中心提出了不同的要求,因为其所需的计算类型与传统任务有着根本性区别。满足这些需求不仅会迫使处理器发生变化,也涉及内存、互连架构和服务器的改变。而由于服务器是构建数据中心的基石,这些变化会向上传导,重塑从机架布局到供电和冷却系统的方方面面。
传统数据中心工作负载(如网页服务器和企业数据库)的计算工作涵盖广泛的操作类型。这些任务结合了标量算术运算、条件逻辑和数据搬运。例如,一次数据库查询可能需要从存储中检索记录、比较数值、应用筛选条件并对结果进行排序。每一步都遵循确定性序列,尽管工作负载可能很复杂,但通常是可预测的,且非常适合能够处理多种不同类型指令的通用处理器。
相比之下,AI工作负载依赖于一组更窄的操作集合——主要是矩阵乘法——但这些操作的计算强度远高于前者。在训练阶段,这些矩阵被反复相乘,系统在此过程中调整数十亿个参数,以捕捉海量数据集中的统计规律。微调阶段则以较小的规模应用相同的操作,利用新数据对已训练好的模型进行优化,使其能够专注于特定任务或领域。推理阶段则是将训练好的模型应用于新的输入数据,运用其参数生成输出——无论是图像分类、产品推荐、文本生成还是语音翻译。这三个阶段都涉及并行执行海量的乘法和加法运算。
AI在执行训练、微调和推理所需的大规模并行矩阵运算时,对图形处理器(GPUs)的依赖程度远高于中央处理器(CPUs)。但这种转变并不局限于处理器本身;AI工作负载重塑了整个服务器架构。为AI优化的系统会将多个加速器紧密地集群在一起,为它们搭配物理位置上靠近计算单元的高带宽内存(HBM),并通过能以极高速度在芯片间传输数据的超高速链路将它们连接起来。随着模型规模的扩大以及分布式训练和强化学习等技术的普及,设计者必须重新思考计算、内存和网络在每台机器内部的布局方式。这些变化增加了单台服务器内的功率密度和发热量,而由于服务器是数据中心的构建基石,其影响会向外传导,波及机架布局、电力输送系统和冷却基础设施。
在转向讨论五大关切之前,有必要仔细审视一个体现尖端AI硬件样貌的实例。英伟达的DGX H100是一款围绕该公司H100芯片构建的专用服务器——H100芯片数年来一直是市场上最先进的AI处理器之一,也是当今数据中心部署最广泛的AI处理器之一,其性能之强大以至于受到美国政府的出口管制。DGX H100是一个由英伟达完全设计并集成的整套一站式系统。
在接下来的案例研究中审视DGX系统,观察英伟达所做出的全部设计选择,可以清晰展示一款明确为AI工作负载构建的服务器与传统机器有何不同,并为后续章节——关于这些差异如何向外传导并塑造整个数据中心的设计——做好铺垫。
英伟达DGX H100内部探秘:一台为AI而生的服务器
每一台DGX服务器的核心是八颗英伟达H100图形处理器。下图展示了该系统的拓扑结构,这些图形处理器居于中心位置。每颗图形处理器内置两种主要核心:张量核心与CUDA核心。张量核心专为深度学习中占主导地位的矩阵乘法运算而生,H100通过自动混合精度技术加速这一工作——即在计算过程中动态切换不同浮点数据精度以兼顾速度与精度。而CUDA核心作为通用处理器,负责处理不适合矩阵数学的任务,例如数据预处理、激活函数以及AI程序的整体流程管理。
图2:DGX H100系统拓扑图
不同于传统服务器中内存与处理器分置在不同模块,H100将内存直接置于芯片之上。这听起来像是内存直接堆叠在处理核心上方,但实际情况并非如此。
如图3所示,图形处理器逻辑芯片(红色部分)是容纳处理核心的引擎。其旁侧是垂直层叠的高带宽内存芯片,底部有一被称为基底芯片(Base die)的控制层,负责通过一片名为中介层的薄硅片管理与处理器的通信。基底芯片是高带宽内存的一部分。实际结构远比此示意图中更为纤薄紧凑,但原理不变:图形处理器所用的高带宽内存通常向上堆叠建造,而非平铺展开。
图3:图形处理器旁侧高带宽内存的垂直堆叠
图形处理器芯片还带有内置端口,用以连接服务器中的其他设备。在H100上,部分端口专用于NVLink——一种将一颗图形处理器与另一颗直接相连的专用高速连接,为图形处理器间的通信提供了比标准接口更快的通道。H100芯片上的其他端口则将图形处理器连接至NVSwitch,后者如同集线器,使服务器内每颗图形处理器都能同时与其他所有图形处理器对话——为大规模AI工作负载构建了一个紧密互联的网络。最后,图形处理器芯片还包含与服务器中央处理器通信的端口。
图2的其余部分展示了这些处理器如何向外连接至网络与存储。在两侧,中央处理器连接至高速网络适配器,借助以太网或InfiniBand等技术提供外部连接,既用于服务器间数据传输,也连接至存储系统以访问海量数据集。系统还包含大量用于数据缓存与本地工作的内部高速存储。尽管图中显示为两个独立部分,但它们如同大脑的两个半球,作为一个统一的整体协同工作。
总而言之,DGX系统揭示了图形处理器内部的变革如何远远超出芯片本身而产生涟漪效应。这些组件的排布方式——垂直堆叠、更密集的封装、通过专用桥接互连——产生了更多热量,必须借助先进冷却系统将其排出。所增加的重力负荷与功率密度,反过来又对数据大厅的建造方式提出了新要求。简言之,使H100这类图形处理器面对AI工作负载如此高效的创新,同时也对服务器乃至整个数据中心的设计与运行提出了一系列新要求。
关切一:AI工作负载耗电过多
与前文所述的另外四个关切不同,它们将AI更高的电力消耗与具体的下游效应联系起来,如挤占其他电网容量、推高居民电费、威胁电网可靠性、给地方水资源带来压力等;而“AI数据中心耗电过多”这一论断常常是独立提出的。
确实,AI工作负载增加了数据中心对电力系统用电规模的需求,因为运行和操作AI所需的硬件,其功耗显著高于用于传统计算的硬件。根据SemiAnalysis的研究,一台典型的CPU和存储服务器在正常运行时的平均瞬时功耗约为1千瓦,而单台AI服务器的功耗则处于10千瓦的量级。具体而言,SemiAnalysis发现,一台DGX H100服务器在正常运行时的平均功耗约为10,200瓦。
但数据中心并非全球电力需求增长的主要、次要甚至第三级驱动因素。图4展示了国际能源署的数据,显示了从2024年到2030年各行业电力需求的预计增长量,单位为太瓦时——这是衡量国家或全球层面电力消耗的标准单位,相当于维持一小时一万亿瓦的功率。数据显示,在2024年至2030年间,数据中心用电量的增长将占全球电力需求总增长量的不到10%。其他因素,如工业产出、交通和建筑电气化、空调使用增加以及电动汽车的部署,预计将对整体需求增长贡献大得多的份额。
图4:按产业划分的全球电力需求增长预测,2024-2030年,从上至下:其他、重工业、供暖与热水供应、数据中心(橙)、空间冷却、家电用具、电动运输、轻工业。单位:太瓦时
相比其他大规模需求来源,数据中心并非唯一给电网带来压力的需求来源。因此,如果这种担忧并未指向具体的下游损害——如消费者成本上升、环境破坏、电网可靠性降低或其他用户被排挤——那么它实际上并不涉及可测量的系统性失效。在这种情况下,电力消耗便成了对AI规模或发展速度更广泛疑虑的替代指标。将绝对的电力消耗本身视为问题,是用对AI部署的本能式抗拒替代了严肃的政策辩论,却从未明确指出究竟需要解决何种具体问题。
政策制定者应为AI建立“单位工作能耗”指标,确保电力使用比较与产出效率挂钩
即使政策制定者认同应根据下游效应来评估电力使用,绝对消耗量仍常成为这些关切的简略表征。但仅凭总用电量数据,并不能区分哪些系统的功耗更高是因为其计算产出实现了数量级的跃升,而哪些系统的功耗更高却并未带来相应的处理能力提升。一则关于“数据中心今年用电量是去年两倍”的头条新闻,丝毫不能揭示AI系统的效率是变得更低,还是产能大幅提高。若无法将能源使用与产出相关联,此类比较非但无助于澄清,反而可能扭曲政策辩论。
“单位工作能耗”指标使这一区别变得明晰。通过直接将电力使用与产出挂钩,它能揭示额外的电力消耗是否转化为了成比例的计算能力、速度或吞吐量增长,抑或电力使用的上升并未带来有意义的生产力增益。这将能源辩论的焦点从原始消耗量转向了电力转化为有用工作的效率。
产业界已开始朝此方向努力,开发出诸如“每瓦性能”或“每瓦智能度”等衡量标准。MLPerf Power已成为一项领先的基准测试工具,用于衡量完成特定计算工作负载(如训练一个模型或处理固定数量的推理任务)所需的能耗。对于大语言模型,研究者越来越多地使用“每焦耳生成词元数”(tokens-per-joule)来衡量单位能量产生的语言输出量。在硬件层面,“每瓦浮点运算次数”(FLOPs-per-watt)衡量的是芯片将功率转化为原始计算能力的效率,而新型AI加速器在设计中明确追求最大化这一比值。
在美国,国家标准与技术研究院(NIST)应与能源部(DOE)合作,为衡量AI系统的单位有用工作能耗制定推荐最佳实践。这些最佳实践应侧重于训练和推理环节的工作负载级别生产率,而非总功耗,并可借鉴现有方法,如基于任务的基准测试、每瓦性能测量以及系统级效率指标。例如,相关标准可规定一组代表性AI任务、测量方法以及参考硬件配置,从而能够在无需披露专有模型细节或训练数据的情况下,跨模型和系统比较“单位工作能耗”。
美国还应通过七国集团(G7)和经济合作与发展组织(OECD)等国际论坛开展工作,鼓励各方围绕这些基于生产率的指标形成共识。国际协调一致有助于确保“单位工作能耗”指标成为评估AI系统的共同参考基准,而非导致各司法管辖区出现各自为政、互不统一的衡量体系——尤其是在部分国家正考虑针对AI能源使用出台强制性报告要求的背景下。
关切二:AI工作负载挤占有限电网容量的其他用途
批评者认为,用于AI的数据中心挤占了其他具有社会价值的电力用途。随着电力系统日益紧张,本可用于支持家庭电气化、交通电动化或工业脱碳化的稀缺电力,却被转用于运行商业AI工作负载的私营数据中心。从这个角度看,AI不仅增加了电网需求,还与其他优先事项直接争夺有限的容量。这一批评在美国电网扩张滞后于需求增长的地区尤为尖锐。
要理解这一关切在美国的具体表现,有必要先了解美国电力系统的组织架构。美国并非由单一的统一电网供电,而是划分为多个区域性电力系统,各自拥有独立的运行规则、规划流程和可靠性标准。在美国大部分地区,日常电网运营由被称为“区域输电组织”(RTO)或“独立系统运营商”(ISO)的非营利实体负责管理。
诸如中大西洋地区的PJM、中西部的MISO以及加利福尼亚州的CAISO等RTO和ISO,并不拥有发电厂或输电线路。它们的职责是运营电网。它们协调跨州区域电力的实时流动,确保供需平衡,并管理决定谁能够接入系统以及接入条件的技术规则。
图5:美国的区域输电组织(RTO)和独立系统运营商(ISO)
这些电网运营商的核心职责之一是确定哪些资源可以向电网输送电力,以及哪些大型用户被允许汲取大量电力。由于电力必须即时、可靠地输送,任何新的连接请求——无论是供应侧的发电厂还是需求侧的大型工业负荷——都必须经过一项被称为“并网”的正式技术审查。这一流程旨在确保新项目不会造成输电线路过载、电压或频率失稳,或增加停电风险。
因此,并网流程起到了一种把关机制的作用。电网运营商会研究拟议项目对变电站、输电线路及其他共享基础设施的影响,并可能在批准连接前要求进行升级改造。这些研究耗时较长且按顺序进行,这意味着项目会被列入队列并依次接受评估。
由于电力接入受制于缓慢、顺序进行的并网流程,且电网本身的扩张也是渐进式的,批评者认为,整个系统吸纳大规模突增需求的能力有限。在此背景下,他们认为,吉瓦级AI数据中心的出现,将稀缺的电力资源倾斜给了私营数据中心部署,而牺牲了其他形式的电气化和清洁能源应用——后者必须在同样受限的系统内竞争。作为回应,批评者呼吁采取措施减缓或暂停新数据中心的审批。例如,弗吉尼亚州曾提出一项法案,旨在暂时叫停新增项目,直至现有并网申请处理完毕,其明确引用的风险便是本已紧张的队列将变得更加拥堵。
-
本文仅代表作者个人观点。
- 责任编辑: 郭涵 
-
当增长失效,太平鸟在“重做”一家公司
2026-04-21 12:48 观网财经-消费 -
36年积淀,6年淬炼,归元S和魏牌V9X为中国豪华立全球标准
2026-04-21 12:04 观网财经-科创 -
上市4个月卖不到10万台,三星三折叠被曝将退市
2026-04-21 10:49 观网财经-科创 -
苹果的“库克时代”即将落幕,特努斯将接掌“4万亿帝国”
2026-04-21 07:46 观网财经-科创 -
36年后,六神拿出“小六神”
2026-04-21 02:22 观网财经-健康 -
余承东:华为Pura90系列平均成本上涨1500元,扛不住可能涨价
2026-04-20 18:09 观网财经-科创 -
灵光上线“灵光圈”, 打造人人可用的Coding Agent
2026-04-20 17:17 观网财经-互联网 -
阿里发布世界模型HappyOyster,与谷歌Genie3竞争
2026-04-20 17:16 观网财经-互联网 -
腾讯发布并开源混元3D世界模型2.0,一句话造出3D世界,兼容游戏引擎
2026-04-20 17:15 观网财经-互联网 -
爱奇艺发布纳逗Pro平台、新爱奇艺号和分账新规,助力AIGC影视创作者起步
2026-04-20 16:08 观网财经-互联网 -
投资之禾,开云到底还是放不下中国
2026-04-20 15:12 观网财经-消费 -
中国移动集采6万台服务器,ARM处理器占比升至65%
2026-04-20 12:51 观网财经-科创 -
小米徐洁云回应“雷军被堵车里”:造谣的等着
2026-04-20 12:20 观网财经-科创 -
从蓝帽子溯源到合规破局,东方甄选6款自营保健食品获国家认证
2026-04-20 09:35 -
长江存储加速扩产,单季收入被曝超200亿元
2026-04-20 06:34 观网财经-科创 -
亦庄半马深度观察:50分26秒,一场炸裂的“无用之用”
2026-04-19 16:57 观网财经-科创 -
速卖通Brand+背后的中国怪物房出海逻辑
2026-04-19 16:09 产经 出海 -
中国机器人租出海,一天6000美元?
2026-04-19 14:45 产经 科创 -
高德首款具身机器人亮相马拉松大赛
2026-04-19 14:15 观网财经-互联网 -
DeepSeek终于要融资了,估值100亿美元合理吗?
2026-04-18 12:02 观网财经-互联网
相关推荐 -
最新闻 Hot
-
慌什么?中国出新规保供应链,欧美商会坐不住了
-
伊朗将恢复往返中国航班,我使馆:暂勿前往
-
“看过电影不?这种情况只在中美,欧洲不太行”
-
“俄日大战”:语言墙塌了后,日本怎么老惹众怒?
-
伊媒发布反击目标清单
-
盯上红海航道,美国想拉拢这个非洲神秘小国
-
“斯里兰卡要用人民币买俄油”
-
印尼外长来灭火:不会收费的
-
“中国AI算力惊人,高出预估6000倍”
-
首次公布!伊朗蒙面士兵扣押集装箱船
-
阿斯麦傻眼,最大的客户说:太贵了,旧的先用着…
-
NASA这一梦想,将被中国率先实现?
-
南京地铁,通到安徽了
-
印度小伙捏了个“MAGA辣妹”,骗惨特朗普粉丝,“又蠢又好骗”
-
特鲁多突然炮轰美国:把加拿大推向中国
-
美国想挺美,“踢走伊朗队,复活意大利”
-

观察员





上海市互联网违法与不良信息举报中心