摘要
键值(KV)缓存的线性增长仍是多轮大语言模型部署的瓶颈。现有KV缓存压缩方法常忽视多轮对话的结构特性,依赖启发式剔除策略,易丢失关键上下文。本文提出SONIC——一种基于学习的框架,将历史对话片段压缩为紧凑且语义丰富的“枢纽”(Nexus)令牌。通过引入动态预算训练,SONIC可在无需重新训练的情况下灵活适应不同内存约束。实验表明,在80%和50%压缩率下,SONIC在四个多轮对话基准上均优于H2O和StreamingLLM等基线方法;在广泛使用的MTBench101基准上,平均得分较当前最优方法提升35.55%,有效维持了多轮对话连贯性,并将整体推理速度提升50.1%。
AI 推荐理由
聚焦KV缓存压缩,直接优化Agent长期记忆机制。
论文信息