摘要
近年来,大型语言模型(LLMs)通过生成长推理轨迹展现了显著的推理能力。然而,随着序列长度的增长,键值(KV)缓存呈线性扩展,导致显著的内存和计算成本。现有的KV缓存淘汰方法通过丢弃不重要的KV对缓解这一问题,但往往无法捕捉复杂的KV依赖关系,从而导致性能下降。为更好地平衡效率与性能,我们引入了ForesightKV,一种基于训练的KV缓存淘汰框架,能够学习预测在长文本生成过程中应淘汰哪些KV对。我们首先设计了Golden Eviction算法,该算法使用未来注意力分数识别每一步的最优淘汰KV对。然后,通过监督训练和成对排序损失函数对这些轨迹和得分进行蒸馏。此外,我们将缓存淘汰建模为马尔可夫决策过程,并应用GRPO算法以减轻低熵标记上的显著语言建模损失增加。在AIME2024和AIME2025基准测试中,三种推理模型的实验结果表明,ForesightKV在仅一半缓存预算下始终优于先前方法,并且从监督学习和强化学习方法中协同获益。
AI 推荐理由
论文直接针对KV缓存的优化,核心研究Agent Memory机制,标题和内容均明确涉及Memory。
论文信息