找回密码
 立即注册
搜索
日产 讴歌 福特 极氪 林肯 阿尔法 保时捷 奔腾 长城 东风 哈弗 Jeep 捷途 岚图 理想 兰博基尼 名爵 马自达 玛莎拉蒂 欧拉 奇瑞 smart 沙龙 坦克 特斯拉 蔚来 沃尔沃 小鹏 雪佛兰 高合 奥迪 丰田 本田 雷克萨斯 英菲尼迪 捷达 捷豹路虎 阿斯顿 马丁 罗密欧 标致 宾利 长安 法拉利 红旗 几何 凯迪拉克 领克 劳斯莱斯 路特斯 MINI 迈凯伦 哪吒 起亚 荣威 三菱 斯巴鲁 腾势 魏牌 五菱 现代 雪铁龙 宝骏 大众 宝马 比亚迪

华为发布AI推理“黑科技” 助力解决AI推理效率

[XinWen.Mobi 原创复制链接分享]
xinwen.mobi 发表于 2025-8-13 00:06:50 | 显示全部楼层 |阅读模式
http://42.194.194.111/shipinxinwen/IMG_3337.MOV2025年8月12日,在2025金融AI推理应用落地与发展论坛上,华为发布了AI推理创新技术——UCM推理记忆数据管理器(Unified Cache Manager)。这是一款以KV Cache为中心的推理加速套件,旨在推动AI推理体验升级,提升推理性价比,加速AI商业正循环。具体信息如下:技术组件:    推理引擎插件(Connector):可对接不同引擎与算力,能连接MindIE、SGLang等一些主流推理引擎框架,与业界多样引擎与多元算力灵活对接。    功能库(Accelerator):支持多级KV Cache管理及加速算法,通过一系列算法,把推理过程中有不同延时要求的数据放在不同的记忆体中,实时记忆数据即热放在HBM中,短期记忆数据放在DRAM,其他放在共享专业存储中,通过这样的按需流动来提升整个系统的效率。    存取适配器(Adapter):高性能KV Cache存取适配器,与专业共享存储相结合,能提升专业存储的直通效率和降低时延,可以让三级存储更好协同。技术优势:    降低首Token时延:依托UCM层级化自适应的全局前缀缓存技术,可实现任意物理位置、任意输入组合上的KV前缀缓存重用,在多轮对话、RAG知识检索等场景中直接调用KV缓存数据,避免重复计算,使首Token时延最大降低90%。    扩展推理上下文窗口:通过动态KV逐层卸载、位置编码扩展、Prefill稀疏等组合技术,将超长序列Cache分层卸载至外置专业存储,利用算法突破模型和资源限制,实现10倍级推理上下文窗口扩展,满足长文本处理需求。    提升长序列场景处理速度:UCM具备智能分级缓存能力,可根据记忆热度在HBM、DRAM、SSD等存储介质中自动分级缓存,同时融合多种稀疏注意力算法,实现存算深度协同,使长序列场景下TPS(每秒处理token数)提升2-22倍,显著降低每Token推理成本。    预测联想算法:UCM受打字输入法联想的启发,提供一套基于后缀检索的预测联想算法,将行业私域数据和用户习惯构建token级的后缀索引,突破自回归的联想限制,可以一次输出多词,并且存得越多推得越快,比传统MTP预测加速效果更好、更适用于企业场景。试点应用成果:华为已携手中国银联率先在金融典型场景开展UCM技术试点应用。在中国银联“客户之声”业务场景下,借助UCM技术及工程化手段,大模型推理速度提升125倍,仅需10秒即可精准识别客户高频问题,促进了服务质量提升。开源计划:华为计划于2025年9月正式开源UCM,届时将在魔擎社区首发,后续逐步贡献给业界主流推理引擎社区,并共享给业内所有Share Everything(共享架构)存储厂商和生态伙伴,携手全产业共同推动AI推理生态的繁荣发展。
A65B0E11-1E09-4EA3-A512-D01895FA096B.png
回复

使用道具 举报

QQ|标签|爬虫xml|爬虫txt|新闻魔笔科技XinWen.MoBi - 海量语音新闻! ( 粤ICP备2024355322号-1|粤公网安备44090202001230号 )

GMT+8, 2025-11-8 15:15 , Processed in 0.082821 second(s), 25 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

消息来源网络

快速回复 返回顶部 返回列表