摘要
线性注意力大语言模型(LLMs)通过将上下文压缩为固定大小的状态矩阵,提供了一种高效的循环推理形式,实现常数时间推理。然而,该压缩状态的内部动态尚不清晰。本文对当前先进线性注意力模型的运行时状态动态进行了系统研究,揭示了一种称为“状态秩分层”的基本现象:不同注意力头在谱特性上呈现明显分化——一组头的有效秩趋近于零并持续振荡,另一组则迅速增长并收敛至上界。大量实验表明,这种动态在不同推理场景下高度一致,说明头的低秩或高秩属性是预训练阶段获得的固有结构特征,而非输入依赖的瞬态表现。进一步分析发现,低秩头对模型推理至关重要,而高秩头则具有显著冗余。基于此,作者提出联合秩范数剪枝策略,在零样本设置下减少38.9%的KV缓存开销,同时基本保持模型精度。
AI 推荐理由
研究线性注意力LLM的内部状态动态,涉及上下文压缩与KV缓存,属记忆机制关键部分。
论文信息