KV缓存优化 稀疏注意力
摘要

大语言模型(LLMs)的长上下文推理受限于注意力机制的二次计算复杂度和键值(KV)缓存的巨大内存占用。现有稀疏注意力方法常依赖固定模式或激进剪枝,难以兼顾效率与精度。本文提出HyLRA(混合层复用注意力),基于逐层稀疏性分析,发现注意力机制具有“层内敏感性”(某些层需完整注意力以防特征失真)和“层间相似性”(相邻层共享关键token)。HyLRA通过离线动态规划制定最优逐层策略:对敏感层保留完整注意力,对容忍层则复用前一层的top-k索引以跳过二次计算,从而将计算聚焦于关键token。实验表明,HyLRA在保持性能(精度下降<1%)的同时,推理吞吐量提升6%–46%,优于当前先进稀疏注意力方法。

AI 推荐理由

聚焦KV缓存优化,属LLM推理内存管理,非Agent专属记忆机制。

论文信息
作者 Xuan Ai, Qingqing Yang, Peng Wang, Lei Deng, Lin Zhang et al.
发布日期 2026-01-31
arXiv ID 2602.00777
相关性评分 6/10 (相关)