线性注意力 状态压缩 KV缓存优化 模型剪枝
摘要

线性注意力大语言模型(LLMs)通过将上下文压缩为固定大小的状态矩阵,提供了一种高效的循环推理形式,实现常数时间推理。然而,该压缩状态的内部动态尚不清晰。本文对当前先进线性注意力模型的运行时状态动态进行了系统研究,揭示了一种称为“状态秩分层”的基本现象:不同注意力头在谱特性上呈现明显分化——一组头的有效秩趋近于零并持续振荡,另一组则迅速增长并收敛至上界。大量实验表明,这种动态在不同推理场景下高度一致,说明头的低秩或高秩属性是预训练阶段获得的固有结构特征,而非输入依赖的瞬态表现。进一步分析发现,低秩头对模型推理至关重要,而高秩头则具有显著冗余。基于此,作者提出联合秩范数剪枝策略,在零样本设置下减少38.9%的KV缓存开销,同时基本保持模型精度。

AI 推荐理由

研究线性注意力LLM的内部状态动态,涉及上下文压缩与KV缓存,属记忆机制关键部分。

论文信息
作者 Ao Sun, Hongtao Zhang, Heng Zhou, Yixuan Ma, Yiran Qin et al.
发布日期 2026-02-02
arXiv ID 2602.02195
相关性评分 7/10 (相关)