摘要
尽管键值(KV)缓存在高效大语言模型(LLM)推理中至关重要,但在长上下文场景下其内存占用不断增长,成为显著瓶颈,因此KV缓存压缩变得尤为重要。当前的压缩方法依赖于固定的分割策略,如固定间隔或预定义分隔符。然而,这种刚性分割在不同场景下会导致显著的精度下降(5.5%至55.1%),因为语义边界具有场景依赖性。为此,本文提出了一种名为DynSplit-KV的KV缓存压缩方法,通过动态识别分隔符实现语义对齐。该方法包括两个创新点:(1)一种基于重要性感知的动态分隔符选择策略,提升了49.9%的精度;(2)一种统一映射策略,将可变长度的语义块转换为固定长度格式,减少了4.9倍的推理开销。实验表明,DynSplit-KV在长上下文场景中实现了最高精度,并相比FlashAttention实现了2.2倍的速度提升和2.6倍的峰值内存减少。
AI 推荐理由
论文聚焦KVCache压缩,与Agent Memory中的上下文管理密切相关,但非唯一主题。
论文信息