-
霍丹·奥马尔:用AI写100字邮件等于耗半升水?“数据中心焦虑”偏离了方向
误导性的水资源指标与错位的比较
许多关于数据中心用水的说法所依赖的比较和计算方式经不起仔细审视。从“每封邮件耗水量”的估算,到将AI系统与牛肉生产或主要农作物进行类比的种种说法,往往建立在前后不一致的假设、不匹配的单位或选择性的核算方式之上,从而夸大了AI工作负载的显见影响。
以训练一个诸如GPT的模型耗水量堪比生产100磅牛肉这一比较为例。问题未必在于数字本身,而在于比较的单位。它所衡量的是一次性的计算过程——其产出之后可能被使用数十亿次——却与100磅牛肉作比,而每当人们需要时都必须重新生产这部分的牛肉。这两者并非可比较的单位。
更公允的比较应着眼于整个设施。以xAI位于孟菲斯的Colossus 2为例,这是全球最大的AI数据中心之一。一项自下而上的估算显示,其全年的水足迹约为3.46亿加仑。虽然这听起来非常庞大,但若计入饲养肉牛所需的水量,单是一家高人气的In-N-Out汉堡门店的年度总水足迹便约为1.47亿加仑。换言之,一座最强大的数据中心所消耗的水量,仅相当于两家半快餐店的水足迹。然而,却没有人呼吁暂停开设汉堡店以保护当地水资源。
xAI在田纳西州孟菲斯的数据中心
美国主流媒体报道的“单次任务”式表述框架令情况雪上加霜。批评者所用的方法很简单:取一座设施的总用水量,除以其处理的查询次数,然后将结果作为生成一封邮件或一张图片的水资源成本予以呈现。但数据中心的冷却系统并不会为每一次独立请求而开启或关闭。无论该设施处理的是10次查询还是100亿次查询,冷却系统都以大致相同的强度连续运行。为维持运行温度而消耗的水量,无论如何都会发生。将这部分固定开销的一部分归因于每一次查询,是在暗示多发一封邮件会导致冷却塔抽取更多水,而实际情况并非如此。单次任务数据并非衡量一次查询实际成本的指标。它只是设施的总水费除以其产出,被以一种让AI日常使用看似对环境有重大影响的方式呈现出来,而其背后的数学逻辑并不支持这一结论。
其结果是,这场辩论因反数据中心的言论而部分失真,并未立足于可靠证据。AI数据中心确实消耗水,且在部分地点,这种消耗可能引发合理的关切。但一场严肃的讨论需要超越虚假叙事,聚焦于水资源风险的真实决定因素。
用水不等同于对水造成损害
AI工作负载产生的热量确实远超传统计算。要量化AI工作负载增加的冷却需求,方法之一是考察名为“热设计功耗”(TDP)的指标。TDP基本上是芯片制造商可为热工程师提供的一项芯片级规格参数。它是一个功率数值,而非温度,表示在典型负载下冷却系统必须能够带走的热量(以瓦为单位)。例如,一颗TDP为125瓦的CPU,意味着散热器应能够带走125瓦的热量。
现代AI芯片的TDP很高,且通常随每一代新品的推出而攀升。英伟达的旗舰数据中心GPU,其TDP已从2020年A100(SXM4型号)的400瓦跃升至2022年H100的700瓦,其新款Blackwell B200的TDP据报达1000瓦。这一趋势在其他主要厂商中同样明显。AMD的Instinct加速器从MI250X的500瓦增至MI300X的750瓦,谷歌第七代Ironwood TPU和英特尔Gaudi 3的TDP据报均为600瓦。
然而,所有论断都聚焦于用了多少水,而非在未获补充的情况下用了多少水。这是一个关键区别,因为许多公司都在主动发起水资源回补计划以抵消其消耗。谷歌、微软、Meta和亚马逊均已承诺到2030年实现“水资源正效益”,即计划回补环境的水量将超过其消耗量。
《华盛顿邮报》的文章指出,谷歌2024年环境报告显示其“仅回补了所消耗水量的18%——远低于其设定的2030年120%的目标”。但其于6月发布的2025年报告显示,该比例已提升至64%——若保持这一变化速度,它将在2027年达到120%。这一进展是通过资助100多个地方流域管理项目实现的,例如恢复加州中央谷地的湿润草甸以充当地下水补给的天然海绵,以及投资于科罗拉多河流域的灌溉效率提升。这些项目被战略性地布局在其数据中心所处的同一批水资源紧张区域,有助于确保回补发生在真正受到影响的社区。
这一进展也说明了为何仅看回补量并非正确的衡量标准。那些仅聚焦于总耗水量数据的报道虽然引人注目,却分散了政策制定者本应关注的真正问题,例如回补的水是否水质良好,是否有助于周边生态系统的健康。如果水在返回水源时的温度大幅升高,便可能造成热污染。这种升温的水会降低水体含氧量并危害当地野生动植物,从而破坏脆弱的水生生态系统。
此外,若大量取水速度过快,或取自本就水资源紧张的区域,则可能扰乱河流的自然流量,并对农业和饮用水等其他基本用途的本地供应造成压力。真正重要的是AI基础设施与其赖以生存的流域健康之间的平衡。
变化的电力需求催生新的冷却与用水约束
在关于数据中心用水的讨论中,很大程度上被忽略的一点是AI工作负载引入了根本性的全新热挑战。AI基础设施不仅仅是产生更多热量,它还以剧烈波动的脉冲形式以及由先进芯片封装所创造的、难以触及的新热点区域产生热量,使冷却系统超出了其原始设计的管理能力。
图7是一幅时序图,展示了谷歌TPU芯片温度随时间波动的状况,将基准情景与应用缓解技术的情景进行了对比。代表TPU温度基准的红线显示出宽幅且剧烈的温度区间,伴有高达20摄氏度的急剧快速波动。蓝线代表缓解后的情景,显示了如何通过软件控制来主动平滑芯片上的功耗,将温度波动的剧烈程度降低约50%。
图7:谷歌TPU芯片的温度波动(红色为基准情景,蓝色为应用缓解技术的情景)
随着芯片功耗的快速飙升与下降,其温度也随之出现同样快速且显著的波动。这些热波动的剧烈程度会因工作负载类型(训练与推理)及具体任务的不同而有显著差异。
重要的是,这并非整颗芯片的平均温度,而是单个裸片上最热点的温度,工程师通常称之为“热点温度”。这是最有可能率先失效的位置,也是快速波动影响最大的地方。即便整颗芯片的温度看似温和,热点也可能每几秒就大幅波动一次,这可能导致芯片性能退化甚至失效。这是因为芯片由多种材料(如硅、铜和焊料)制成,它们在升温和冷却时的膨胀与收缩速率各不相同。剧烈波动的温度导致这些材料不断膨胀和收缩。久而久之,这种由温度波动带来的持续应力,会导致焊点和互连处形成并扩展微观裂纹,最终造成完全失效,恰如反复弯折一根金属线终致其折断。
AI工作负载还在改变这些热点在芯片上的出现位置,给热工程师带来了新挑战。在传统服务器CPU上,主要热点可能位于主处理核心所在之处。然而,现代AI芯片采用先进方法将元件靠得更近,要么将它们并排置于一个小型共享基板上,要么直接层层堆叠。这种新的集成水平正催生出新的热点。
AI芯片上内存的位置便是新热点的一个典型例子。随着AI模型日益复杂,支持它们的系统要求内存具备更大容量、更快吞吐量、更低延迟和更优能效。为满足这一需求,一项关键创新是高带宽内存(HBM),即如图8所示,将多层内存芯片垂直堆叠在一起。这一关键发展有助于解决处理器速度与所通信内存速度之间的“内存墙”瓶颈。
3D堆叠内存中的热量积聚
挑战在于,热量只能沿两个主要方向散逸:向上传至散热器,或从芯片边缘侧向导出。堆叠中间层的内存实际上处于“被困”状态。由于上方有层叠阻挡,它们无法轻易向上释热;向下亦然。堆叠中上方或下方芯片的热量也会传导至这些中间层,像水坑中的水一样既垂直又侧向扩散。结果堆叠的中心距离任何散逸路径最远,成为温度最高的点位。
不断攀升的TDP、快速的热波动以及AI芯片上新的热点位置,这些复杂挑战说明了为何传统冷却方法已不再够用。当数十颗这样的芯片被装入一台服务器,数千台服务器又组成一个数据中心时,问题便不只是累加性的,而是倍增性的。芯片级产生的热量逐级传导放大,使传统风冷系统不堪重负,迫使基础设施堆栈的每一层级——从直接芯片液冷到整个数据中心的热管理设计——都必须进行创新。
数据中心正积极降低冷却与用水强度
冷却是运营数据中心的第二大开支,仅次于电力。因此,运营商有强烈的动力去降低这一成本。从芯片封装到机架设计,从AI驱动的热优化到城市规模的区域供冷,种种创新正在重塑数据中心管理热量的方式,同时降低能耗与用水。
·数据中心内部的冷却创新
从芯片级创新说起,各公司正在探索直接内置于芯片封装本身的冷却方式。高带宽内存领域的领先企业SK海力士,采用了一种名为“模塑底部填充”(MR-MUF)的专有技术,用一种导热材料填充堆叠芯片间的微小气隙,使热量能更高效地散逸,保持芯片以更低温运行。与此同时,台积电正在开发一项名为“集成微冷却器”(IMC-Si)的技术,即在硅中介层本体上蚀刻出微小的流体通道。冷却液流经这些通道,而通道距离上方发热晶体管仅有数百微米之遥,从而在热量扩散至芯片其余部分之前便实现了极为高效的排热。
在服务器层面,最显著的进步是直接芯片液冷(DLC)。它旨在通过在CPU和GPU正上方放置由铜或铝制成的薄型金属冷板来带走热量。每个冷板内部都有微细通道供冷却液流过,使得金属能够吸收芯片热量并将其传递给流体。冷却液绝不接触电子元件,仅在密封的冷板内流动。
所用液体的类型各有不同。虽然水是优良的热导体,但它同时也导电并可能腐蚀部件。为防止损坏,数据中心使用经特殊处理的去离子水。一旦冷却液吸收了芯片热量,被加热的液体便被泵送回冷却液分配单元(CDU)。在那里,一个液-液热交换器将热量从服务器冷却液回路中带走,而两种流体互不混合。冷却后的液体再被送回芯片,循环往复。最终,提取出的热量被排放至系统外部。英伟达最尖端的机架架构已将直接芯片液冷作为标准配置。其GB200 NVL72机架级系统容纳了72颗GPU和36颗Grace CPU,芯片上直接安装有冷板,并内置了CDU。
另一项日益受关注的服务器级创新是液体浸没式冷却。此方式将整个服务器完全浸没在装满非导电介电液的容器中。由于液体不导电,服务器可在完全浸没的状态下运行,且液体直接吸收所有部件(而不仅仅是CPU和GPU)的热量。浸没式冷却有两种形式。在单相系统中,液体的表现很像散热器中的水:它吸收热量、升温,然后被泵送至冷却单元降温后再循环回来。在两相系统中,液体被设计为在相对较低温度下沸腾。当部件发热时,与之接触的液体瞬间转化为蒸汽,将热量向上带走。蒸汽随后在容器较冷表面重新冷凝为液体,滴落回底部以重复循环。这种沸腾-冷凝回路使得两相冷却在热量产生的源头就近带走热量方面极为高效,但也需要更专用的液体和设备。
数据大厅层面的策略是绝热冷却,即利用蒸发来降低空气温度。在此方法中,外部空气在进入设施前被吸入穿过湿帘或经细雾喷洒。随着水分蒸发,空气得以冷却,这股较凉的空气随后在数据大厅内循环,以吸收服务器的热量。由于该过程避免了耗能巨大的冷却机组,在蒸发效果最佳的干燥气候下,它成为一种高效的选择。然而,其代价在于绝热系统需要可靠的水源供应,其可持续性取决于水的来源地和取用方式。
这些创新有助于提升数据中心在能源和水资源方面的负责任程度。通过直接从芯片、服务器和机架捕获热量,它们大幅减少了对于高能耗空调和风扇的需求,使更多电力能够用于计算本身。
-
本文仅代表作者个人观点。
- 责任编辑: 郭涵 
-
当增长失效,太平鸟在“重做”一家公司
2026-04-21 12:48 观网财经-消费 -
36年积淀,6年淬炼,归元S和魏牌V9X为中国豪华立全球标准
2026-04-21 12:04 观网财经-科创 -
上市4个月卖不到10万台,三星三折叠被曝将退市
2026-04-21 10:49 观网财经-科创 -
苹果的“库克时代”即将落幕,特努斯将接掌“4万亿帝国”
2026-04-21 07:46 观网财经-科创 -
36年后,六神拿出“小六神”
2026-04-21 02:22 观网财经-健康 -
余承东:华为Pura90系列平均成本上涨1500元,扛不住可能涨价
2026-04-20 18:09 观网财经-科创 -
灵光上线“灵光圈”, 打造人人可用的Coding Agent
2026-04-20 17:17 观网财经-互联网 -
阿里发布世界模型HappyOyster,与谷歌Genie3竞争
2026-04-20 17:16 观网财经-互联网 -
腾讯发布并开源混元3D世界模型2.0,一句话造出3D世界,兼容游戏引擎
2026-04-20 17:15 观网财经-互联网 -
爱奇艺发布纳逗Pro平台、新爱奇艺号和分账新规,助力AIGC影视创作者起步
2026-04-20 16:08 观网财经-互联网 -
投资之禾,开云到底还是放不下中国
2026-04-20 15:12 观网财经-消费 -
中国移动集采6万台服务器,ARM处理器占比升至65%
2026-04-20 12:51 观网财经-科创 -
小米徐洁云回应“雷军被堵车里”:造谣的等着
2026-04-20 12:20 观网财经-科创 -
从蓝帽子溯源到合规破局,东方甄选6款自营保健食品获国家认证
2026-04-20 09:35 -
长江存储加速扩产,单季收入被曝超200亿元
2026-04-20 06:34 观网财经-科创 -
亦庄半马深度观察:50分26秒,一场炸裂的“无用之用”
2026-04-19 16:57 观网财经-科创 -
速卖通Brand+背后的中国怪物房出海逻辑
2026-04-19 16:09 产经 出海 -
中国机器人租出海,一天6000美元?
2026-04-19 14:45 产经 科创 -
高德首款具身机器人亮相马拉松大赛
2026-04-19 14:15 观网财经-互联网 -
DeepSeek终于要融资了,估值100亿美元合理吗?
2026-04-18 12:02 观网财经-互联网
相关推荐 -
最新闻 Hot
-
慌什么?中国出新规保供应链,欧美商会坐不住了
-
伊朗将恢复往返中国航班,我使馆:暂勿前往
-
“看过电影不?这种情况只在中美,欧洲不太行”
-
“俄日大战”:语言墙塌了后,日本怎么老惹众怒?
-
伊媒发布反击目标清单
-
盯上红海航道,美国想拉拢这个非洲神秘小国
-
“斯里兰卡要用人民币买俄油”
-
印尼外长来灭火:不会收费的
-
“中国AI算力惊人,高出预估6000倍”
-
首次公布!伊朗蒙面士兵扣押集装箱船
-
阿斯麦傻眼,最大的客户说:太贵了,旧的先用着…
-
NASA这一梦想,将被中国率先实现?
-
南京地铁,通到安徽了
-
印度小伙捏了个“MAGA辣妹”,骗惨特朗普粉丝,“又蠢又好骗”
-
特鲁多突然炮轰美国:把加拿大推向中国
-
美国想挺美,“踢走伊朗队,复活意大利”
-

观察员





上海市互联网违法与不良信息举报中心