SONIC：面向键值缓存信息压缩的分段优化枢纽

摘要

键值（KV）缓存的线性增长仍是多轮大语言模型部署的瓶颈。现有KV缓存压缩方法常忽视多轮对话的结构特性，依赖启发式剔除策略，易丢失关键上下文。本文提出SONIC——一种基于学习的框架，将历史对话片段压缩为紧凑且语义丰富的“枢纽”（Nexus）令牌。通过引入动态预算训练，SONIC可在无需重新训练的情况下灵活适应不同内存约束。实验表明，在80%和50%压缩率下，SONIC在四个多轮对话基准上均优于H2O和StreamingLLM等基线方法；在广泛使用的MTBench101基准上，平均得分较当前最优方法提升35.55%，有效维持了多轮对话连贯性，并将整体推理速度提升50.1%。

AI 推荐理由

聚焦KV缓存压缩，直接优化Agent长期记忆机制。

论文信息

作者 Hong Chen, Xiang Liu, Bo Wang, Yuxuan Fan, Yuanlin Chu et al.

发布日期 2026-01-29

arXiv ID 2601.21927