DynSplit-KV：面向高效长上下文LLM推理的动态语义分割KV缓存压缩方法

KV Cache 语义分割压缩算法长上下文推理

摘要

尽管键值（KV）缓存在高效大语言模型（LLM）推理中至关重要，但在长上下文场景下其内存占用不断增长，成为显著瓶颈，因此KV缓存压缩变得尤为重要。当前的压缩方法依赖于固定的分割策略，如固定间隔或预定义分隔符。然而，这种刚性分割在不同场景下会导致显著的精度下降（5.5%至55.1%），因为语义边界具有场景依赖性。为此，本文提出了一种名为DynSplit-KV的KV缓存压缩方法，通过动态识别分隔符实现语义对齐。该方法包括两个创新点：（1）一种基于重要性感知的动态分隔符选择策略，提升了49.9%的精度；（2）一种统一映射策略，将可变长度的语义块转换为固定长度格式，减少了4.9倍的推理开销。实验表明，DynSplit-KV在长上下文场景中实现了最高精度，并相比FlashAttention实现了2.2倍的速度提升和2.6倍的峰值内存减少。

AI 推荐理由

论文聚焦KVCache压缩，与Agent Memory中的上下文管理密切相关，但非唯一主题。

论文信息

作者 Jiancai Ye, Jun Liu, Qingchen Li, Tianlang Zhao, Hanbin Zhang et al.

发布日期 2026-02-03

arXiv ID 2602.03184