KV缓存压缩 内存高效推理
摘要

在边缘设备部署大语言模型需压缩KV缓存。现有量化方法虽减少存储,但因注意力计算前需将INT4/INT8键反量化为FP16,未能降低带宽开销。本文指出注意力评分等价于内积相似性搜索,可借鉴向量数据库压缩技术。提出LOOKAT方法,通过乘积量化与非对称距离计算,将键向量分解为子空间、学习码本,并利用查找表计算注意力,使注意力计算从内存受限转为计算受限。在GPT-2上实现64倍压缩(输出保真度95.7%)和32倍压缩(95.0%),无需修改架构或重新训练,且保持排名相关性ρ>0.95。理论分析表明相关性退化率为O(d_k/mK),在序列长度达1024时仍有效。

AI 推荐理由

聚焦KV缓存压缩,属LLM推理内存优化,与Agent Memory密切相关但非专为Agent设计。

论文信息
作者 Aryan Karmore
发布日期 2026-01-15
arXiv ID 2601.10155
相关性评分 8/10 (高度相关)