线性注意力大语言模型中的状态秩动态

线性注意力状态压缩 KV缓存优化模型剪枝

摘要

线性注意力大语言模型（LLMs）通过将上下文压缩为固定大小的状态矩阵，提供了一种高效的循环推理形式，实现常数时间推理。然而，该压缩状态的内部动态尚不清晰。本文对当前先进线性注意力模型的运行时状态动态进行了系统研究，揭示了一种称为“状态秩分层”的基本现象：不同注意力头在谱特性上呈现明显分化——一组头的有效秩趋近于零并持续振荡，另一组则迅速增长并收敛至上界。大量实验表明，这种动态在不同推理场景下高度一致，说明头的低秩或高秩属性是预训练阶段获得的固有结构特征，而非输入依赖的瞬态表现。进一步分析发现，低秩头对模型推理至关重要，而高秩头则具有显著冗余。基于此，作者提出联合秩范数剪枝策略，在零样本设置下减少38.9%的KV缓存开销，同时基本保持模型精度。

AI 推荐理由

研究线性注意力LLM的内部状态动态，涉及上下文压缩与KV缓存，属记忆机制关键部分。

论文信息

作者 Ao Sun, Hongtao Zhang, Heng Zhou, Yixuan Ma, Yiran Qin et al.

发布日期 2026-02-02

arXiv ID 2602.02195