摘要
注意力模式在大语言模型(LLMs)的训练与推理中至关重要。以往研究识别出检索头、汇聚头和对角线轨迹等个别模式,但缺乏统一解释。本文提出时序注意力模式可预测性分析(TAPPA),从连续时间视角出发,通过数学形式化统一解释多样注意力模式。TAPPA将注意力模式分为具有明确规律的可预测模式与近似随机的不可预测模式,并揭示该区分源于查询在时序维度上的自相似程度。针对可预测模式,作者结合查询、键与旋转位置编码(RoPE)进行详细数学分析。实验表明,基于TAPPA启发的简单指标在KV缓存压缩与LLM剪枝任务中持续优于基线方法。
AI 推荐理由
论文分析注意力模式可预测性,间接关联KV缓存压缩,涉及记忆机制但非核心。
论文信息