KV缓存压缩 多轮对话记忆
摘要

键值(KV)缓存的线性增长仍是多轮大语言模型部署的瓶颈。现有KV缓存压缩方法常忽视多轮对话的结构特性,依赖启发式剔除策略,易丢失关键上下文。本文提出SONIC——一种基于学习的框架,将历史对话片段压缩为紧凑且语义丰富的“枢纽”(Nexus)令牌。通过引入动态预算训练,SONIC可在无需重新训练的情况下灵活适应不同内存约束。实验表明,在80%和50%压缩率下,SONIC在四个多轮对话基准上均优于H2O和StreamingLLM等基线方法;在广泛使用的MTBench101基准上,平均得分较当前最优方法提升35.55%,有效维持了多轮对话连贯性,并将整体推理速度提升50.1%。

AI 推荐理由

聚焦KV缓存压缩,直接优化Agent长期记忆机制。

论文信息
作者 Hong Chen, Xiang Liu, Bo Wang, Yuxuan Fan, Yuanlin Chu et al.
发布日期 2026-01-29
arXiv ID 2601.21927
相关性评分 9/10 (高度相关)