视觉记忆 上下文压缩
摘要

长程智能体推理需将不断增长的交互历史有效压缩至有限上下文窗口中。现有记忆系统多将历史序列化为文本,其token级开销均匀且随长度线性增长,常将稀缺预算浪费于低价值细节。为此,本文提出MemOCR——一种多模态记忆智能体,通过视觉布局实现自适应信息密度分配,在严格上下文预算下提升长程推理能力。MemOCR维护结构化富文本记忆(如标题、高亮),并将其渲染为图像供智能体查阅,视觉上突出关键证据,同时大幅压缩辅助细节。为确保在不同记忆预算下的鲁棒性,采用强化学习在预算感知目标下训练模型,使其适应多样压缩水平。在长上下文多跳与单跳问答基准上,MemOCR优于强文本基线,并在极端预算下实现更高效的上下文利用。

AI 推荐理由

论文提出MemOCR,核心聚焦于Agent Memory的视觉化压缩与布局感知机制。

论文信息
作者 Yaorui Shi, Shugui Liu, Yu Yang, Wenyu Mao, Yuxin Chen et al.
发布日期 2026-01-29
arXiv ID 2601.21468
相关性评分 10/10 (高度相关)