KV缓存优化 Agent Memory 推理模型 缓存淘汰策略 强化学习
摘要

近年来,大型语言模型(LLMs)通过生成长推理轨迹展现了显著的推理能力。然而,随着序列长度的增长,键值(KV)缓存呈线性扩展,导致显著的内存和计算成本。现有的KV缓存淘汰方法通过丢弃不重要的KV对缓解这一问题,但往往无法捕捉复杂的KV依赖关系,从而导致性能下降。为更好地平衡效率与性能,我们引入了ForesightKV,一种基于训练的KV缓存淘汰框架,能够学习预测在长文本生成过程中应淘汰哪些KV对。我们首先设计了Golden Eviction算法,该算法使用未来注意力分数识别每一步的最优淘汰KV对。然后,通过监督训练和成对排序损失函数对这些轨迹和得分进行蒸馏。此外,我们将缓存淘汰建模为马尔可夫决策过程,并应用GRPO算法以减轻低熵标记上的显著语言建模损失增加。在AIME2024和AIME2025基准测试中,三种推理模型的实验结果表明,ForesightKV在仅一半缓存预算下始终优于先前方法,并且从监督学习和强化学习方法中协同获益。

AI 推荐理由

论文直接针对KV缓存的优化,核心研究Agent Memory机制,标题和内容均明确涉及Memory。

论文信息
作者 Zican Dong, Peiyu Liu, Junyi Li, Zhipeng Chen, Han Peng et al.
发布日期 2026-02-03
arXiv ID 2602.03203
相关性评分 9/10 (高度相关)