华为CMS上下文记忆存储亮相华为云INSPIRE,助力Token成本断崖式下降
6月5日,在2026华为云INSPIRE创想者大会上,华为重磅发布AMS(Agentic记忆存储)解决方案。该方案基于CMS(Context Memory Storage)上下文记忆存储打造,采用NPU直通技术、KV Cache分层池化能力与全新盘级存储架构,彻底打破智能体的记忆瓶颈,助力智能体持续学习。

智能体商业化加速落地,长文本处理、多轮对话和跨天级长程任务已成常态。业界普遍认为,KV Cache(上下文缓存)作为大模型的核心“记忆力”,将直接决定智能体的能力上限。然而,传统AI算力架构正面临严峻的“内存墙”制约——日益膨胀的海量KV Cache若全部堆积在昂贵的显存(HBM)中,不仅容量难以承载,更会导致成本失控,让企业在算力投入与运营成本之间陷入两难。
技术突破:打通NPU直通,构建PB级共享记忆
华为本次发布的方案,基于NPU直通华为CMS存储硬件这一创新架构,成功在数据基础设施层打造出PB级的超大共享记忆空间。针对长程任务中吞吐量大、留存时间长的KV Cache,实现分层池化管理,可自动识别数据的冷热属性并实现高效流动,使推理的中的首Token时延(TTFT)降低至1/10。同时,该架构让外置的CMS存储大幅分担显存压力,让单节点服务并发量显著提升。

商业价值:重写推理成本逻辑,Token成本大幅降低
除了架构层面突破,这一方案更从根本上直接重塑了大模型推理的底层成本逻辑。传统模式下,显存容量有限,多轮对话的上下文往往需重复计算(Prefill阶段),导致大量算力浪费和高昂的Token计费。华为CMS提供的“大容量记忆库”,可实现KV Cache的跨节点高效复用,省去了绝大部分的重复算力。据悉,引入该方案后,Token成本有望降低90%。
从训练提速到推理普惠,华为CMS上下文记忆存储标志着AI DC(人工智能数据中心)数据基础设施的跨越式升级,扫清底层障碍,加速智能体走向产业化普惠。
声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。
热点精选
- 湖北户外电力柜定制,防水防尘高防护等级电气机2026-06-08 09:32:48
- 2026成都全屋定制市场观察:五家适配不同预2026-06-08 00:35:18
- 从ENF到CARB 2多重认证加持,哪些全屋2026-06-08 00:35:08
- 深耕九载结硕果,中软国际亮相2026华为云全2026-06-06 19:35:22
- 创维自然光电视85QX亮相健康显示大会,领跑2026-06-06 14:03:19
- 入选百强品牌、斩获传播金奖!高途靠什么打动人2026-06-06 12:10:01
- 中法对话,探索土壤韧性未来 酩悦轩尼诗第三届2026-06-05 23:34:52
- 以专业铸口碑 以仁心赢信赖——深度信赖北京振2026-06-05 18:04:37
- 新国标卫生巾实力榜单,依托实测数据整理全品类2026-06-05 15:52:43
- 全国爱眼日聚焦全民用眼健康,创维自然光显示技2026-06-05 14:40:30










