摘要
大型语言模型(LLMs)在长上下文场景中受到Key-Value(KV)缓存内存线性增长的严重限制。现有的KV压缩方法依赖静态阈值和仅基于注意力的启发式方法,或粗略的内存预算分配。在严格的内存预算下,这些方法忽略了两个关键因素:与提示相关的压缩风险变化以及不同注意力头的功能异质性,这导致了标记选择不稳定并引发尾部失败。为了解决这些问题,我们提出了CompilerKV,一种风险自适应且关注注意力头差异的压缩框架,通过将离线经验编译为可重用的决策表来实现仅预填充部署。CompilerKV集成了两个关键协同组件:(i) 通过离线上下文老虎机学习得到的注意力头异质性表,用于分配特定于头的可靠性权重以明确管理不同注意力头的功能差异;(ii) 风险自适应阈值门控机制,联合建模注意力熵和局部困惑度,将提示级别的风险转化为可部署的保留阈值。在LongBench上的实验表明,在512个token的预算下,CompilerKV优于现有最先进方法,恢复了97.7%的FullKV性能,并比最强竞争者提升了高达5.2分。
AI 推荐理由
论文聚焦于KV缓存压缩,直接解决LLM在长上下文场景中的记忆机制瓶颈问题。
论文信息