Agent Memory Memory Compression
摘要

大型语言模型(LLM)的最新进展支持基于强化学习训练的多轮交互智能体系统,但其实际部署受限于不断增长的文本历史记录,导致令牌预算和内存消耗激增。本文提出AgentOCR框架,利用视觉令牌更高的信息密度,将累积的观察-动作历史压缩为紧凑的渲染图像。为实现可扩展的多轮推理,AgentOCR引入分段光学缓存机制,通过将历史分解为可哈希片段并维护视觉缓存,避免冗余重渲染。此外,该框架还提出智能体自压缩机制,使智能体能主动输出压缩率,并通过压缩感知奖励进行训练,以自适应平衡任务成功率与令牌效率。在ALFWorld和基于搜索的问答等挑战性基准上的实验表明,AgentOCR在保持超过95%文本智能体性能的同时,显著降低令牌消耗(>50%),并实现一致的令牌与内存效率提升。

AI 推荐理由

提出视觉化压缩历史记忆机制,直接优化Agent Memory效率。

论文信息
作者 Lang Feng, Fuchao Yang, Feng Chen, Xin Cheng, Haiyang Xu et al.
发布日期 2026-01-08
arXiv ID 2601.04786
相关性评分 8/10 (高度相关)