-
AI落地的关键堵点,华为用“黑科技”打通了
-
吕栋lvdong@guancha.cn
那能不能根据记忆热度,在 HBM、DRAM、SSD等存储介质中分级缓存数据,让模型能记住的KV Cache数据更多,同时能更智能、更快速的调用数据?就像人类一样,可以把“记忆”放在大脑、书本和电脑等不同地方,按需快速调取。
华为这次推出的 “黑科技”UCM就是类似的思路。
UCM的全称是“推理记忆数据管理器”( Unified Cache Manager ),它 是一款以 KV Cache为中心的推理加速套件,融合了多类型缓存加速算法工具, 可以 分级管理推理过程中产生的 KV Cache记忆数据,扩大推理上下文窗口,以实现高吞吐、低时延的推理体验,降低每Token推理成本。
比如为了解决 “推得慢”的问题,UCM将 历史已处理过的结果、历史对话、语料库、 RAG知识库的数据以KV Cache的形式缓存至第三层的高性能外置共享存储上,遇到已推理过、已缓存过的信息 不用再重新推理, 而是只用从外置存储中查询并调用即可,实现大幅推理加速,将首 token延迟降低90% , 也节省了 token by token的时间。
有了这种能力,大模型还可以记住更多的历史内容和对话,不用再 “重复劳动”,以前生成内容需要10秒,现在可能1秒就能搞定,显著改善推理体验。
这还不是这项 “黑科技”的全部。
关注大模型的都知道,随着推理任务越来越长,长序列推理让大模型常常 “只有七秒钟记忆”,比如在分析一篇万字长文时,由于HBM容量有限,缓存到前2000字可能就装不下了,这就容易出现推理失败、关键关联信息丢失的情况,形成“推不动”的困境。
华为是如何解决的?
UCM通过一系列智能算法突破,对长序列内容进行切片,并把已处理的切片卸载到更大的DRAM或外置共享存储,相当于扩充了HBM的容量,让上下文窗口扩大10倍、满足长序列推理需求。换言之,模型的“记忆能力”从“记3页纸”提升至“记30页纸”。
更关键的是, 华为采用了注意力稀疏及相关技术,可以识别大量 KV Cache数据的重要程度、相关性和热度,将重要的/不重要的、相关的/不相关的数据 , 分层分级地进行缓存并流动。在下一次推理过程中,只需要把关键的、合适的向量提取出来即可,这也就降低了向量推理过程中向量的数量,提升整体吞吐量。
“ 面向推理加速的 KV数据,一定会有热/温/冷,不可能都用最贵的介质,去存储所有数据。我们做存储系统有很深的体会,每类数据都有这个特征,都有一个生命周期,一定会用多层介质解决性能问题,又平衡成本问题。 ”华为技术专家对观察者网说道。
在存算协同能力深度加持下,通过多层介质平衡性能和成本, “推得贵”也不再是难题。华为表示,无需过多投资,UCM就可以让长序列场景下TPS(每秒处理token数)提升2-22倍,相当于降低每Token推理成本,为企业减负增效。
UCM的意义,更像是华为的另一种“系统补单点”,它不是为了取代HBM,而是降低了对HBM的依赖,把HBM的优势发挥在更合适的地方。
在这种技术加持下,企业可以维持算力投入不变,仅花销小部分外置存储的投资,让缓存原地 “升级”,改善推理效率、摊薄每token推理成本,进而形成“用户流量增大-企业收益-进一步扩大AI投资-技术快速迭代”的正循环,拉动中国整体AI水平提升。
联合创新,验证技术价值
任何技术只有真正落地才能产生价值。华为UCM推出后,已经携手中国银联率先在金融典型场景开展UCM技术试点应用。
- 责任编辑: 吕栋 
-
前7月全国固投同比增1.6%,房地产开发投资降12%
2025-08-15 10:26 宏观经济 -
全球追索的恒大“二号人物”浮出水面!夏海钧藏身美国加州尔湾
2025-08-15 10:07 观网财经-消费 -
哈根达斯与星巴克踏入同一条河流
2025-08-15 10:02 观网财经-消费 -
腾讯称有足够芯片做AI训练;美考虑国家持股英特尔;抖音回应快递服务
2025-08-15 08:59 观网财经-互联网 -
唯品会Q2财报:净营收258亿元,SVIP活跃用户数同比增15%
2025-08-14 20:08 观网财经-互联网 -
淘天集团“更名”,与饿了么、飞猪为并行关系
2025-08-14 20:07 观网财经-互联网 -
稳定币第一股不稳定:Q2营收增53%,但净亏损4.82亿美元
2025-08-14 20:06 金融观察 -
传复星集团在港申请稳定币牌照,此前提交“星币”商标注册
2025-08-14 20:05 金融观察 -
同比少卖了7亿元,康师傅上半年饮料业务失速
2025-08-14 19:31 观网财经-消费 -
22.4%!京东集团2025年Q2收入同比增速再创近三年新高
2025-08-14 17:53 观网财经-互联网 -
腾讯Q2收入利润双增长,AI立大功
2025-08-14 17:50 观网财经-互联网 -
联想季度营收1362亿,杨元庆:中国制造成本优于任何地方
2025-08-14 16:10 观网财经-科创 -
非洲市场出现多个人事变动,小米称是正常调整
2025-08-14 15:58 观网财经-科创 -
时隔六年再现!平安举牌太保,保险巨头互买点燃行情
2025-08-14 13:10 金融观察 -
人形机器人今年产量仅2台,天链机器人IPO可能要被“劝退”
2025-08-14 09:39 科技前沿 -
DeepSeek-R2在8月无发布计划;苹果计划推出安全摄像头等AI产品
2025-08-14 08:43 观网财经-互联网 -
瓜子和豌豆卖不动了,甘源食品净利润腰斩
2025-08-13 19:30 观网财经-消费 -
女律师“单挑”王者荣耀,“中国游戏算法诉讼第一案”开庭
2025-08-13 19:26 观网财经-互联网 -
7月DAU过2000万,《三角洲行动》Q2实现用户、收入双线高速增长
2025-08-13 17:38 观网财经-互联网 -
“中国人几百年来都不精于消费”,怎么理解?
2025-08-13 17:11 观网财经-消费
相关推荐 -
-
“轻松的一天”,随行高管们非常期待… 评论 15
东南亚多国表态,“缅甸措辞最严,坚定站队中方” 评论 131
呵呵,“‘民主国家’看不上中国技术”? 评论 313
普京访印:美国都在买,印度凭啥不能买? 评论 90
日本开发稀土担心中国干扰?日防相放话 评论 138最新闻 Hot-
“轻松的一天”,随行高管们非常期待…
-
“特朗普对高市早苗措辞非常严厉,甚至还说了……”
-
扎心了!美新版国安战略,辣评欧洲
-
东南亚多国表态,“缅甸措辞最严,坚定站队中方”
-
打造美版深圳!他给特朗普画饼,被曝“近乎科幻”
-
无视美国,莫迪宣布:印俄已同意…
-
“二次打击”还没解释清,美军袭击又致4死
-
欧盟,“罚酒三杯”?
-
呵呵,“‘民主国家’看不上中国技术”?
-
普京访印:美国都在买,印度凭啥不能买?
-
“白宫‘慌乱应对’,想赢中国,支持得到位啊”
-
国安战略报告迟迟未出,“美财长要求软化对华措辞”
-
自民党“黑金”丑闻“吹哨人”再出手,这次是高市
-
“彻底反转了,中国是发达国家,我们才是新兴国家”
-
“华德858”轮触礁断裂
-
机密通话曝光!“美国恐将背叛,你要小心”
-

观察员
上海市互联网违法与不良信息举报中心