Agent Memory Long-Context Reasoning Memory Compression Retrieval-Augmented Generation Reinforcement Learning
摘要

在超长文档上进行推理需要在严格内存限制下合成分散在远距离段落中的稀疏证据。虽然流式代理能够实现可扩展处理,但其被动的记忆更新策略往往无法保留多跳推理所需的低显著性桥梁证据。我们提出了InfMem,一种以控制为中心的代理,通过预思考-检索-写入协议实现系统2型风格的控制。InfMem主动监控证据充分性,执行针对性的文档内检索,并应用基于证据的联合压缩来更新有限内存。为确保可靠的控制,我们引入了一种实用的SFT到RL训练方法,使检索、写入和停止决策与最终任务正确性对齐。在32k到1M token的超长问答基准测试中,InfMem在各种模型主干上始终优于MemAgent。具体而言,InfMem分别在Qwen3-1.7B、Qwen3-4B和Qwen2.5-7B上将平均绝对准确率提高了+10.17、+11.84和+8.23分,同时通过自适应提前停止将推理时间平均减少了3.9倍(最高达5.1倍)。

AI 推荐理由

论文核心聚焦于Agent Memory控制机制,提出InfMem系统以优化长上下文处理中的记忆管理。

论文信息
作者 Xinyu Wang, Mingze Li, Peng Lu, Xiao-Wen Chang, Lifeng Shang et al.
发布日期 2026-02-02
arXiv ID 2602.02704
相关性评分 9/10 (高度相关)