KV Cache 语义分割 压缩算法 长上下文推理
摘要

尽管键值(KV)缓存在高效大语言模型(LLM)推理中至关重要,但在长上下文场景下其内存占用不断增长,成为显著瓶颈,因此KV缓存压缩变得尤为重要。当前的压缩方法依赖于固定的分割策略,如固定间隔或预定义分隔符。然而,这种刚性分割在不同场景下会导致显著的精度下降(5.5%至55.1%),因为语义边界具有场景依赖性。为此,本文提出了一种名为DynSplit-KV的KV缓存压缩方法,通过动态识别分隔符实现语义对齐。该方法包括两个创新点:(1)一种基于重要性感知的动态分隔符选择策略,提升了49.9%的精度;(2)一种统一映射策略,将可变长度的语义块转换为固定长度格式,减少了4.9倍的推理开销。实验表明,DynSplit-KV在长上下文场景中实现了最高精度,并相比FlashAttention实现了2.2倍的速度提升和2.6倍的峰值内存减少。

AI 推荐理由

论文聚焦KVCache压缩,与Agent Memory中的上下文管理密切相关,但非唯一主题。

论文信息
作者 Jiancai Ye, Jun Liu, Qingchen Li, Tianlang Zhao, Hanbin Zhang et al.
发布日期 2026-02-03
arXiv ID 2602.03184
相关性评分 7/10 (相关)