摘要
在自主代理、长链推理和创意写作等应用中,高效长上下文LLM的部署受到KV缓存内存线性增长的根本限制。现有压缩和淘汰方法难以平衡准确性、压缩率和硬件效率。本文提出DeltaKV,一种基于残差的KV缓存压缩框架,其灵感来源于两个实证发现:长距离标记间的相似性以及KV表示中高度共享的潜在组件。DeltaKV不删除标记,而是相对于检索到的历史参考对语义残差进行编码,在保持保真度的同时显著减少存储需求。为进一步将压缩优势转化为实际系统加速,我们引入了Sparse-vLLM,一个具有解耦内存管理和针对稀疏和不规则KV布局优化的高性能推理引擎。实验表明,DeltaKV在LongBench、SCBench和AIME上保持接近无损精度的同时,将KV缓存内存减少至原始的29%。当与Sparse-vLLM集成时,在长上下文场景下可实现比vLLM高达2倍的吞吐量提升,展示了可扩展长上下文LLM部署的实际路径。
AI 推荐理由
论文聚焦于KV缓存压缩,直接解决LLM在长上下文场景下的内存瓶颈问题,属于记忆机制中的长期记忆与存储优化。
论文信息