华为发布AI推理“黑科技” 助力解决AI推理效率

xinwen.mobi · 发表于 2025-8-13 00:06:50

http://42.194.194.111/shipinxinwen/IMG_3337.MOV2025年8月12日，在2025金融AI推理应用落地与发展论坛上，华为发布了AI推理创新技术——UCM推理记忆数据管理器（Unified Cache Manager）。这是一款以KV Cache为中心的推理加速套件，旨在推动AI推理体验升级，提升推理性价比，加速AI商业正循环。具体信息如下：技术组件：推理引擎插件（Connector）：可对接不同引擎与算力，能连接MindIE、SGLang等一些主流推理引擎框架，与业界多样引擎与多元算力灵活对接。功能库（Accelerator）：支持多级KV Cache管理及加速算法，通过一系列算法，把推理过程中有不同延时要求的数据放在不同的记忆体中，实时记忆数据即热放在HBM中，短期记忆数据放在DRAM，其他放在共享专业存储中，通过这样的按需流动来提升整个系统的效率。存取适配器（Adapter）：高性能KV Cache存取适配器，与专业共享存储相结合，能提升专业存储的直通效率和降低时延，可以让三级存储更好协同。技术优势：降低首Token时延：依托UCM层级化自适应的全局前缀缓存技术，可实现任意物理位置、任意输入组合上的KV前缀缓存重用，在多轮对话、RAG知识检索等场景中直接调用KV缓存数据，避免重复计算，使首Token时延最大降低90%。扩展推理上下文窗口：通过动态KV逐层卸载、位置编码扩展、Prefill稀疏等组合技术，将超长序列Cache分层卸载至外置专业存储，利用算法突破模型和资源限制，实现10倍级推理上下文窗口扩展，满足长文本处理需求。提升长序列场景处理速度：UCM具备智能分级缓存能力，可根据记忆热度在HBM、DRAM、SSD等存储介质中自动分级缓存，同时融合多种稀疏注意力算法，实现存算深度协同，使长序列场景下TPS（每秒处理token数）提升2-22倍，显著降低每Token推理成本。预测联想算法：UCM受打字输入法联想的启发，提供一套基于后缀检索的预测联想算法，将行业私域数据和用户习惯构建token级的后缀索引，突破自回归的联想限制，可以一次输出多词，并且存得越多推得越快，比传统MTP预测加速效果更好、更适用于企业场景。试点应用成果：华为已携手中国银联率先在金融典型场景开展UCM技术试点应用。在中国银联“客户之声”业务场景下，借助UCM技术及工程化手段，大模型推理速度提升125倍，仅需10秒即可精准识别客户高频问题，促进了服务质量提升。开源计划：华为计划于2025年9月正式开源UCM，届时将在魔擎社区首发，后续逐步贡献给业界主流推理引擎社区，并共享给业内所有Share Everything（共享架构）存储厂商和生态伙伴，携手全产业共同推动AI推理生态的繁荣发展。

		自动登录	找回密码
密码			立即注册

华为发布AI推理“黑科技” 助力解决AI推理效率 ...

华为发布AI推理“黑科技” 助力解决AI推理效率

相关帖子