摘要
尽管大语言模型(LLMs)理论上支持超长上下文窗口,但其实际部署受限于键值(KV)缓存内存的线性增长。现有压缩策略虽通过剪枝机制缓解该问题,却常以牺牲语义召回为代价换取内存效率。本文提出LASER-KV(基于精确局部敏感哈希的层累积选择框架),在严格累积预算策略下探索KV压缩极限。不同于固定摘要大小的方法,该框架采用由保护除数(n)控制的分块累积策略,有效分离压缩效应与滑动窗口伪影。在Babilong基准上的实验表明,先前方法在多种长上下文任务中性能下降15–30%,而LASER-KV在128k上下文长度下保持稳定,准确率最高提升10%。研究挑战了“注意力分数足以作为token效用代理”的主流假设。
AI 推荐理由
聚焦KV缓存压缩,属LLM推理内存优化,与Agent Memory密切相关但非专为Agent设计。
论文信息