-
AI落地的关键堵点,华为用“黑科技”打通了
-
吕栋lvdong@guancha.cn
(文/观察者网 吕栋)
GPT-5的不再惊艳,让很多人意识到传统的Scaling Law(尺度定律)已经遇到明显瓶颈。从应用需求的角度来讲,更多企业开始关注模型推理的性能体验,这关乎商业落地和变现。
但在推理这个关键环节,中国正遭遇瓶颈。不仅基础设施投资远少于美国,同时还要面对算力卡阉割、 HBM(高带宽内存)涨价禁运等困境。尤其是,随着AI应用场景不断拓展,长文本处理、多轮对话以及复杂业务流程的推理需求日益增长,更让中国AI推理困境凸显。
现实挑战下,华为重磅推出了 AI推理加速“黑科技”UCM(推理记忆数据管理器,Unified Cache Manager)。这一突破性技术通过创新架构设计和存储优化,突破了HBM容量限制,提升了国内AI大模型推理性能,完善了中国AI推理生态的关键环节。
在英伟达因 “后门”遭遇信任危机之际,华为将UCM主动开放开源,打通了框架、算力、存储三层协同,推动国产AI推理告别“堆卡依赖”,走向“体验提升-用户增长-企业加大投资-技术迭代”的正循环。这场围绕“记忆”的技术突围,或许正是中国AI行业落地的关键一役。
推理已成关键,中国瓶颈凸显
AI技术的蓬勃发展,让大模型训练成为成本中心,但真正创造价值的是推理过程。
数据显示,当前 AI推理算力需求已超过训练。GPT-5开放首周API调用量超20亿次/分钟,70%的请求为复杂认为推理(如代码生成、多步规划等),而国内火山引擎的日均token调用量已达16.4万亿,70%以上来自线上推理而非训练。
推理性能关乎用户体验和商业可行性,已成为 AI落地的关键。但随着AI行业化落地加深,推理能力也不断面临挑战, 尤其是在长文本处理、多轮对话以及复杂业务流程的推理需求日益增长的情况下,对推理 性能 的要求愈发严苛。
在此背景下,一种名为 键值缓存( KV Cache) 的关键技术诞生,它可以 优化计算效率、减少重复运算 , 即将已生成 token的Key(键:表征历史输入的特征)和Value(值:基于Key的特征,用于生成当前输出的参考信息)临时存储起来,后续生成新token时直接复用,无需重新计算 ,可以显著提升推理效率。
但 问题是 , KV Cache需要占用GPU的显存(如 高带宽内存 HBM)存储历史Key/Value向量,生成的文本越长,缓存的数据量越大 ,有可能导致 HBM和DRAM被挤爆。
中国企业不比美国,一方面中国互联网企业在 AI基础设施上的投资只有美国的十分之一,中小企业预算少,买不起那么多高端的HBM,另一方面中国还面临出口管制,无法获得最先进的算力卡和HBM,不可能无限制地去堆卡。
更关键的是,面对大模型 PB级的天量数据,传统推理架构过度依赖HBM的瓶颈也日益凸显。随着Agentic AI(代理式人工智能)时代到来,模型规模化扩张、长序列需求激增以及推理任务并发量增长,推理的KV Cache容量增长已超出HBM的承载能力,频繁的内存溢出,导致推理频繁出现“失忆”,需要GPU反复计算,造成卡顿迟缓。
多种难题下,国产大模型陷入了 “推不动”、“推得慢”和“推得贵”的困境。
数据显示,国外主流大模型输出速度为 200 tokens/s区间(时延5ms),而中国普遍小于60 tokens/s(时延50-100ms),最大差距达到10倍。在上下文窗口上,海外模型普遍支持100万级Token(如GPT-5、Claude 3.5),而国内头部模型(Kimi)仅50万,且在长文本分析中,国内模型遗漏关键信息的概率超50%。
这种体验,显然对中国 AI的规模化落地不利。 长此以往, 甚至会 形成商业的恶性循环,进一步导致中国企业投入降低、投资降速,在 AI的国际竞争中 被国外拉开差距 。
怎么在不大幅增加 算力基础设施投入的前提下,显著优化推理体验,推动 AI推理进入商业正循环 ,成为中国的当务之急。
华为 “黑科技”,打通推理体验堵点
前面提到, “Token经济”时代,KV Cache与记忆数据管理是优化推理性能、降低计算成本的核心,但HBM这种高性能内存太贵,且不能无限制堆卡,而SSD(固态硬盘)的传输速率太慢,似乎形成了成本、性能和效果的“不可能三角”。
- 责任编辑: 吕栋 
-
前7月全国固投同比增1.6%,房地产开发投资降12%
2025-08-15 10:26 宏观经济 -
全球追索的恒大“二号人物”浮出水面!夏海钧藏身美国加州尔湾
2025-08-15 10:07 观网财经-消费 -
哈根达斯与星巴克踏入同一条河流
2025-08-15 10:02 观网财经-消费 -
腾讯称有足够芯片做AI训练;美考虑国家持股英特尔;抖音回应快递服务
2025-08-15 08:59 观网财经-互联网 -
唯品会Q2财报:净营收258亿元,SVIP活跃用户数同比增15%
2025-08-14 20:08 观网财经-互联网 -
淘天集团“更名”,与饿了么、飞猪为并行关系
2025-08-14 20:07 观网财经-互联网 -
稳定币第一股不稳定:Q2营收增53%,但净亏损4.82亿美元
2025-08-14 20:06 金融观察 -
传复星集团在港申请稳定币牌照,此前提交“星币”商标注册
2025-08-14 20:05 金融观察 -
同比少卖了7亿元,康师傅上半年饮料业务失速
2025-08-14 19:31 观网财经-消费 -
22.4%!京东集团2025年Q2收入同比增速再创近三年新高
2025-08-14 17:53 观网财经-互联网 -
腾讯Q2收入利润双增长,AI立大功
2025-08-14 17:50 观网财经-互联网 -
联想季度营收1362亿,杨元庆:中国制造成本优于任何地方
2025-08-14 16:10 观网财经-科创 -
非洲市场出现多个人事变动,小米称是正常调整
2025-08-14 15:58 观网财经-科创 -
时隔六年再现!平安举牌太保,保险巨头互买点燃行情
2025-08-14 13:10 金融观察 -
人形机器人今年产量仅2台,天链机器人IPO可能要被“劝退”
2025-08-14 09:39 科技前沿 -
DeepSeek-R2在8月无发布计划;苹果计划推出安全摄像头等AI产品
2025-08-14 08:43 观网财经-互联网 -
瓜子和豌豆卖不动了,甘源食品净利润腰斩
2025-08-13 19:30 观网财经-消费 -
女律师“单挑”王者荣耀,“中国游戏算法诉讼第一案”开庭
2025-08-13 19:26 观网财经-互联网 -
7月DAU过2000万,《三角洲行动》Q2实现用户、收入双线高速增长
2025-08-13 17:38 观网财经-互联网 -
“中国人几百年来都不精于消费”,怎么理解?
2025-08-13 17:11 观网财经-消费
相关推荐 -
-
东南亚多国表态,“缅甸措辞最严,坚定站队中方” 评论 62
呵呵,“‘民主国家’看不上中国技术”? 评论 298
普京访印:美国都在买,印度凭啥不能买? 评论 86
日本开发稀土担心中国干扰?日防相放话 评论 137
“美欧抢矿,遭殃的却是他们” 评论 16最新闻 Hot-
东南亚多国表态,“缅甸措辞最严,坚定站队中方”
-
打造美版深圳!他给特朗普画饼,被曝“近乎科幻”
-
无视美国,莫迪宣布:印俄已同意…
-
“二次打击”还没解释清,美军袭击又致4死
-
欧盟,“罚酒三杯”?
-
呵呵,“‘民主国家’看不上中国技术”?
-
普京访印:美国都在买,印度凭啥不能买?
-
“白宫‘慌乱应对’,想赢中国,支持得到位啊”
-
国安战略报告迟迟未出,“美财长要求软化对华措辞”
-
自民党“黑金”丑闻“吹哨人”再出手,这次是高市
-
“彻底反转了,中国是发达国家,我们才是新兴国家”
-
“华德858”轮触礁断裂
-
机密通话曝光!“美国恐将背叛,你要小心”
-
“云冈石窟大佛冻得流鼻涕”,官方:将暂时封闭、处置渗水
-
“高市早苗更加不安了”
-
高善文离职后,又有分析师集体出走国投证券
-

观察员
上海市互联网违法与不良信息举报中心