http://42.194.194.111/shipinxinwen/IMG_3337.MOV2025年8月12日,在2025金融AI推理应用落地与发展论坛上,华为发布了AI推理创新技术——UCM推理记忆数据管理器(Unified Cache Manager)。这是一款以KV Cache为中心的推理加速套件,旨在推动AI推理体验升级,提升推理性价比,加速AI商业正循环。具体信息如下:技术组件: 推理引擎插件(Connector):可对接不同引擎与算力,能连接MindIE、SGLang等一些主流推理引擎框架,与业界多样引擎与多元算力灵活对接。 功能库(Accelerator):支持多级KV Cache管理及加速算法,通过一系列算法,把推理过程中有不同延时要求的数据放在不同的记忆体中,实时记忆数据即热放在HBM中,短期记忆数据放在DRAM,其他放在共享专业存储中,通过这样的按需流动来提升整个系统的效率。 存取适配器(Adapter):高性能KV Cache存取适配器,与专业共享存储相结合,能提升专业存储的直通效率和降低时延,可以让三级存储更好协同。技术优势: 降低首Token时延:依托UCM层级化自适应的全局前缀缓存技术,可实现任意物理位置、任意输入组合上的KV前缀缓存重用,在多轮对话、RAG知识检索等场景中直接调用KV缓存数据,避免重复计算,使首Token时延最大降低90%。 扩展推理上下文窗口:通过动态KV逐层卸载、位置编码扩展、Prefill稀疏等组合技术,将超长序列Cache分层卸载至外置专业存储,利用算法突破模型和资源限制,实现10倍级推理上下文窗口扩展,满足长文本处理需求。 提升长序列场景处理速度:UCM具备智能分级缓存能力,可根据记忆热度在HBM、DRAM、SSD等存储介质中自动分级缓存,同时融合多种稀疏注意力算法,实现存算深度协同,使长序列场景下TPS(每秒处理token数)提升2-22倍,显著降低每Token推理成本。 预测联想算法:UCM受打字输入法联想的启发,提供一套基于后缀检索的预测联想算法,将行业私域数据和用户习惯构建token级的后缀索引,突破自回归的联想限制,可以一次输出多词,并且存得越多推得越快,比传统MTP预测加速效果更好、更适用于企业场景。试点应用成果:华为已携手中国银联率先在金融典型场景开展UCM技术试点应用。在中国银联“客户之声”业务场景下,借助UCM技术及工程化手段,大模型推理速度提升125倍,仅需10秒即可精准识别客户高频问题,促进了服务质量提升。开源计划:华为计划于2025年9月正式开源UCM,届时将在魔擎社区首发,后续逐步贡献给业界主流推理引擎社区,并共享给业内所有Share Everything(共享架构)存储厂商和生态伙伴,携手全产业共同推动AI推理生态的繁荣发展。
|
|