Memory Bank by lightsmile

LLM/Agent Memory 论文追踪报告 - 2026-02-03 13:41

337
论文总数
337
已分析
133
高相关
71
Memory核心
排序:
MemSkill: Learning and Evolving Memory Skills for Self-Evolving Agents
Haozhen Zhang, Quanyu Long, Jianzhu Bao, Tao Feng, Weizhi Zhang et al.
10/10 2026-02-02 cs.CL PDF
当前大多数大语言模型(LLM)智能体的记忆系统依赖少量静态、人工设计的操作来提取记忆,这些固定流程将人类先验硬编码为存储与更新规则,在多样交互模式下表现僵化,且难以处理长历史。为此,本文提出MemSkill,将记忆操作重构为可学习、可演化的记忆技能——即从交互轨迹中提取、整合与剪枝信息的结构化可复用例程。受智能体技能设计理念启发,MemSkill采用一个控制器学习选择相关技能,并由基于LLM的执行器生成技能引导的记忆。此外,系统引入一个设计师模块,周期性审查技能失效的困难案例,并通过提出改进或新技能来演化技能集。该闭环机制同时优化技能选择策略与技能本身。在LoCoMo、LongMemEval、HotpotQA和ALFWorld上的实验表明,MemSkill显著优于强基线并具有良好泛化能力。
LLM Agent Memory Skills Self-Evolving Memory Memory Management
论文核心聚焦于LLM Agent记忆机制的可学习与自演化架构。
Infinite-World: Scaling Interactive World Models to 1000-Frame Horizons via Pose-Free Hierarchical Memory
Ruiqi Wu, Xuanhua He, Meng Cheng, Tianyu Yang, Yong Zhang et al.
10/10 2026-02-02 cs.CV PDF
本文提出Infinite-World,一种能在复杂现实环境中维持超过1000帧连贯视觉记忆的鲁棒交互式世界模型。针对现有模型在真实视频中因姿态估计噪声和视角重访稀疏而难以训练的问题,作者引入分层无姿态记忆压缩器(HPMC),递归地将历史隐变量压缩为固定容量表示,并与生成主干联合优化,使模型能以有界计算成本锚定远期过去状态,无需显式几何先验。此外,提出不确定性感知动作标注模块,将连续运动离散化为三态逻辑,提升原始视频数据利用率并避免噪声轨迹污染动作空间。结合回访密集微调策略,在30分钟紧凑数据集上高效激活模型长程闭环能力。实验表明,该方法在视觉质量、动作可控性与空间一致性方面表现优越。
Agent Memory World Model
论文核心提出分层无姿态记忆压缩器,直接研究Agent长期视觉记忆机制。
Live-Evo: Online Evolution of Agentic Memory from Continuous Feedback
Yaolun Zhang, Yiran Wu, Yijiong Yu, Qingyun Wu, Huazheng Wang
10/10 2026-02-02 cs.AI PDF
大语言模型(LLM)智能体日益配备记忆机制,以存储经验并提供可复用的指导,从而提升任务求解性能。现有自演化系统多基于静态训练/测试划分,难以应对真实分布偏移和持续反馈场景。本文提出Live-Evo——一种在线自演化记忆系统,通过“经验库”与“元指导库”解耦“发生了什么”与“如何使用”,为每个任务动态生成适应性指导。系统根据反馈在线调整经验权重:有效经验被强化并频繁检索,误导或过时经验则被降权并逐渐遗忘,模拟人类记忆的强化与衰减机制。在为期10周的Prophet Arena在线基准上,Live-Evo将Brier评分提升20.8%,市场回报提高12.9%,并在深度研究任务中持续优于强基线。
在线学习 记忆演化
论文核心聚焦于Agent Memory的在线演化机制,提出明确的双库架构与记忆更新策略。
Beyond RAG for Agent Memory: Retrieval by Decoupling and Aggregation
Zhanghao Hu, Qinglin Zhu, Hanqi Yan, Yulan He, Lin Gui
10/10 2026-02-02 cs.CL PDF
智能体记忆系统常采用标准的检索增强生成(RAG)流程,但其底层假设在此场景下并不适用。RAG面向大型异构语料库,而智能体记忆是有限、连贯且高度相关的对话流,常含重复片段。固定top-k相似性检索易返回冗余上下文,事后剪枝可能删除推理所需的时序前提。本文主张检索应超越相似匹配,转而操作潜在语义成分,遵循“解耦—聚合”范式:将记忆解耦为语义单元,组织成层次结构,并以此驱动检索。所提xMemory通过稀疏性—语义目标引导记忆的拆分与合并,构建忠实且可检索的高层节点结构。推理时采用自上而下策略,为多事实查询选择紧凑多样的主题与语义,仅在降低阅读器不确定性时才展开至具体事件或原始消息。在LoCoMo和PerLTQA上的实验表明,该方法在三大最新LLM上均显著提升回答质量与token效率。
Agent Memory Retrieval-Augmented Generation
论文聚焦Agent Memory机制,提出超越RAG的新架构。
ProcMEM: Learning Reusable Procedural Memory from Experience via Non-Parametric PPO for LLM Agents
Qirui Mi, Zhijian Ma, Mengyue Yang, Haoxuan Li, Yisen Wang et al.
10/10 2026-02-02 cs.AI PDF
大语言模型驱动的智能体在序列决策任务中表现优异,但常依赖即时推理,在重复场景中反复重新推导解决方案,导致计算冗余与执行不稳定。为解决此问题,本文提出ProcMEM框架,使智能体能在无需参数更新的情况下,从交互经验中自主学习程序性记忆。通过构建技能马尔可夫决策过程(Skill-MDP),ProcMEM将被动的情节叙述转化为具备激活、执行与终止条件的可执行技能。为确保可靠复用且不降低能力,引入非参数化PPO方法,利用语义梯度生成高质量候选技能,并通过PPO门控机制进行鲁棒验证。结合基于评分的记忆维护策略,ProcMEM维持紧凑而高质量的程序性记忆库。实验表明,该方法在域内、跨任务及跨智能体场景下均实现高复用率、显著性能提升与极致记忆压缩。
程序性记忆 大语言模型智能体
论文核心聚焦于LLM Agent的程序性记忆机制构建与复用。
CoMeT: Collaborative Memory Transformer for Efficient Long Context Modeling
Runsong Zhao, Shilei Liu, Jiwei Tang, Langming Liu, Haibin Chen et al.
10/10 2026-02-02 cs.LG PDF
标准Transformer的二次复杂度及不断增长的键值(KV)缓存严重阻碍了长上下文处理。为此,本文提出协作记忆Transformer(CoMeT),一种新型架构,使大语言模型能以恒定内存占用和线性时间复杂度处理任意长度序列。CoMeT作为即插即用模块,仅需少量微调即可集成至预训练模型。其采用双记忆系统:基于FIFO队列的临时记忆存储近期事件,带门控更新规则的全局记忆捕获长程依赖,并共同构成下一数据块的动态软提示。为支持超长上下文高效微调,作者还提出层间流水并行策略。实验表明,经32k上下文微调的CoMeT模型可在百万token序列中精准检索任意位置的密钥,在SCROLLS摘要任务上媲美全注意力基线,并在真实Agent与用户行为问答任务中验证了实用性。
长上下文建模 记忆架构
论文核心提出协作记忆机制,直接解决Agent长期上下文记忆问题。
EverMemBench: Benchmarking Long-Term Interactive Memory in Large Language ModelsEverMemBench: Benchmarking Long-Term Interactive Memory in Large Language Models
Chuanrui Hu, Tong Li, Xingze Gao, Hongda Chen, Dannong Xu et al.
10/10 2026-02-01 cs.CL PDF
基于大语言模型的智能助手亟需长期对话记忆能力,但现有评测基准局限于双人单话题对话,难以反映真实场景的复杂性。本文提出EverMemBench,一个包含多方、多群组对话的评测基准,涵盖超百万token的对话内容,具备时序演化的信息、跨话题交织及角色特定人格特征。该基准通过1000余个问答对,从细粒度回忆、记忆意识和用户画像理解三个维度评估记忆系统。实验揭示了当前方法的关键局限:多跳推理在多方场景中失效;时序推理尚未解决,需超越时间戳匹配的版本语义;记忆意识受限于检索机制,现有基于相似性的方法难以弥合查询与隐含相关记忆间的语义鸿沟。EverMemBench为下一代记忆架构提供了具有挑战性的测试平台。
长期记忆 评测基准
论文聚焦LLM长期交互记忆的评测,核心研究Agent Memory机制。
PersistBench: When Should Long-Term Memories Be Forgotten by LLMs?
Sidharth Pulipaka, Oliver Chen, Manas Sharma, Taaha S Bajwa, Vyas Raina et al.
10/10 2026-02-01 cs.AI PDF
对话助手正越来越多地将长期记忆与大语言模型(LLM)结合,以提升个性化体验(如记住用户为素食者)。然而,这种记忆持久性也可能带来被忽视的安全风险。为此,本文提出PersistBench基准,用于评估两类长期记忆特有风险:跨域泄露(LLM不当注入长期记忆上下文)和记忆诱导的谄媚行为(存储的记忆隐秘强化用户偏见)。作者在18个前沿及开源LLM上进行评测,发现模型在跨域样本上的中位失败率达53%,在谄媚样本上高达97%。该基准旨在推动更鲁棒、更安全的长期记忆机制在对话系统中的发展。
长期记忆 安全风险
论文聚焦LLM长期记忆的安全风险,直接研究记忆机制的核心问题。
PolarMem: A Training-Free Polarized Latent Graph Memory for Verifiable Multimodal Agents
Zhisheng Chen, Tingyu Wu, Zijie Zhou, Zhengwei Xie, Ziyan Weng et al.
10/10 2026-01-31 cs.AI PDF
随着多模态智能体从被动观察者演变为长期决策者,其记忆系统不仅需提供信息可用性,还需支持逻辑可验证性。当前架构的根本局限在于概率性视觉-语言模型与稠密联想记忆中存在的认知不对称:它们将语义相似性与事实存在性混淆,且无法结构化地编码否定约束。为此,本文提出PolarMem——一种无需训练的极化潜在图记忆系统,通过非参数分布划分将模糊感知似然转化为离散逻辑约束,并采用具有正交抑制连接的极化图拓扑,显式将已验证的否定作为基本认知状态进行存储。推理阶段采用逻辑主导的检索范式,抑制违反否定约束的幻觉模式。在八个冻结视觉-语言模型和六个基准上的广泛实验表明,PolarMem可作为稳健的认知系统,为可验证多模态智能体奠定基础。
Agent Memory Multimodal Agents
论文提出新型记忆系统PolarMem,核心聚焦可验证的Agent记忆机制。
Mem-T: Densifying Rewards for Long-Horizon Memory Agents
Yanwei Yue, Guibin Zhang, Boci Peng, Xuanbo Fan, Jiaxin Guo et al.
10/10 2026-01-30 cs.LG PDF
记忆智能体通过内生方式管理记忆的处理、存储与检索,展现出高度的自主性与适应性。然而,现有训练范式受限于稀疏且延迟的奖励信号,难以实现端到端的记忆管理策略优化。为此,本文提出Mem-T——一种可与轻量级分层记忆数据库交互的自主记忆智能体,支持对流式输入进行动态更新与多轮检索。为有效训练其长视野记忆管理能力,进一步提出MoT-GRPO框架,该树引导强化学习方法通过记忆操作树反向传播与事后信用分配,将稀疏终端反馈转化为稠密的逐步监督信号,联合优化记忆构建与检索。实验表明,Mem-T在性能上超越A-Mem和Mem0达14.92%,同时在准确率-效率帕累托前沿上表现优异,相较GAM减少约24.45%的推理token消耗而不损失性能。
记忆智能体 强化学习
论文聚焦于自主记忆智能体的记忆管理机制与训练方法,核心研究Agent Memory。
Darwinian Memory: A Training-Free Self-Regulating Memory System for GUI Agent Evolution
Hongze Mi, Yibo Feng, WenJie Lu, Song Cao, Jinyuan Li et al.
10/10 2026-01-30 cs.AI PDF
多模态大语言模型(MLLM)智能体在图形用户界面(GUI)自动化中面临长周期、跨应用任务的挑战,主要受限于上下文窗口。现有记忆系统难以适应动态GUI环境,存在高层意图与底层执行间的粒度不匹配及上下文污染问题。为此,本文提出达尔文式记忆系统(DMS),将记忆构建为遵循“适者生存”法则的动态生态系统。DMS将复杂轨迹分解为独立可复用单元,并通过效用驱动的自然选择机制追踪记忆单元的生存价值,主动剪枝次优路径并抑制高风险计划。在真实多应用基准上的实验表明,DMS无需训练成本或架构改动即可显著提升通用MLLM性能,平均成功率提高18.0%,执行稳定性提升33.9%,同时降低任务延迟。
Agent Memory GUI Automation
论文提出新型自进化记忆系统DMS,核心聚焦Agent Memory机制。
E-mem: Multi-agent based Episodic Context Reconstruction for LLM Agent Memory
Kaixiang Wang, Yidan Lin, Jiong Lou, Zhaojiacheng Zhou, Bunyod Suvonov et al.
10/10 2026-01-29 cs.AI PDF
随着大语言模型(LLM)智能体向系统2推理演进,其需在长时间跨度内维持严谨的逻辑完整性。然而,现有记忆预处理范式常因破坏性去上下文化而损害深层推理所需的上下文完整性。为此,本文提出E-mem框架,将范式从记忆预处理转向情节上下文重构。受生物记忆印迹(engrams)启发,E-mem采用异构分层架构:多个辅助智能体维护未压缩的记忆上下文,主控智能体负责全局规划。该机制使辅助智能体能在激活片段内进行局部推理,提取上下文感知证据后再聚合。在LoCoMo基准上的评估表明,E-mem的F1得分超过54%,较当前最优方法GAM提升7.75%,同时降低70%以上的token开销。
LLM Agent Memory Episodic Memory Multi-agent System Context Preservation
论文标题与内容均聚焦于LLM Agent记忆机制,提出新型记忆架构E-mem。
ShardMemo: Masked MoE Routing for Sharded Agentic LLM Memory
Yang Zhao, Chengxiao Dai, Yue Xiu, Mengying Kou, Yuliang Zheng et al.
10/10 2026-01-29 cs.AI PDF
智能体大语言模型(LLM)系统依赖外部记忆以支持长时程状态维护与多智能体并发执行,但随着记忆规模和并行访问量增长,集中式索引与启发式分区成为性能瓶颈。本文提出ShardMemo——一种预算受限的分层记忆服务,包含A层(每智能体工作状态)、B层(带本地近似最近邻索引的分片证据)和C层(版本化技能库)。B层采用“作用域优先路由”策略,通过结构化资格约束在路由或ANN搜索前屏蔽无效分片,并将分片探测建模为对合格分片的掩码混合专家(MoE)路由,支持Top-B或自适应Top-P采样。路由器基于证据到分片的监督信号训练。实验表明,ShardMemo在LoCoMo上显著优于最强基线,在固定预算下提升F1分数并降低检索开销与延迟。
Agent Memory Memory Sharding
论文标题与内容均聚焦于LLM Agent的分层外部记忆系统设计,核心解决记忆扩展与路由问题。
MemOCR: Layout-Aware Visual Memory for Efficient Long-Horizon Reasoning
Yaorui Shi, Shugui Liu, Yu Yang, Wenyu Mao, Yuxin Chen et al.
10/10 2026-01-29 cs.AI PDF
长程智能体推理需将不断增长的交互历史有效压缩至有限上下文窗口中。现有记忆系统多将历史序列化为文本,其token级开销均匀且随长度线性增长,常将稀缺预算浪费于低价值细节。为此,本文提出MemOCR——一种多模态记忆智能体,通过视觉布局实现自适应信息密度分配,在严格上下文预算下提升长程推理能力。MemOCR维护结构化富文本记忆(如标题、高亮),并将其渲染为图像供智能体查阅,视觉上突出关键证据,同时大幅压缩辅助细节。为确保在不同记忆预算下的鲁棒性,采用强化学习在预算感知目标下训练模型,使其适应多样压缩水平。在长上下文多跳与单跳问答基准上,MemOCR优于强文本基线,并在极端预算下实现更高效的上下文利用。
视觉记忆 上下文压缩
论文提出MemOCR,核心聚焦于Agent Memory的视觉化压缩与布局感知机制。
AMA: Adaptive Memory via Multi-Agent Collaboration
Weiquan Huang, Zixuan Wang, Hehai Lin, Sudong Wang, Bo Xu et al.
10/10 2026-01-28 cs.AI PDF
大语言模型(LLM)智能体的快速发展对支持长期交互与复杂推理的鲁棒记忆系统提出了迫切需求。现有方法通常采用僵化的检索粒度、冗余的信息累积策略和粗粒度的更新机制,导致存储内容与任务推理需求不匹配,并随时间积累逻辑不一致。为此,本文提出基于多智能体协作的自适应记忆框架(AMA),通过协调多个智能体实现多粒度记忆管理。AMA采用分层记忆结构,动态匹配检索粒度与任务复杂度:Constructor与Retriever协同构建多粒度记忆并自适应路由查询;Judge验证检索内容的相关性与一致性,必要时触发迭代检索或调用Refresher;Refresher则通过定向更新或删除过时条目维护记忆一致性。在长上下文基准上的实验表明,AMA显著优于当前最优方法,且相比全上下文方法减少约80%的token消耗。
LLM Agent Memory System
论文核心聚焦于LLM Agent记忆机制的设计与优化,标题明确包含memory。
MemCtrl: Using MLLMs as Active Memory Controllers on Embodied Agents
Vishnu Sashank Dorbala, Dinesh Manocha
10/10 2026-01-28 cs.AI PDF
基础模型依赖上下文学习进行个性化决策,但受限于上下文窗口大小,需借助如RAG等记忆压缩与检索系统。然而,现有系统常将记忆视为离线大容量存储,不适用于资源受限的在线具身智能体。本文提出MemCtrl,一种利用多模态大语言模型(MLLMs)在线剪枝记忆的新框架。该框架引入可训练的记忆头μ,作为门控机制,在探索过程中动态决定保留、更新或丢弃哪些观察或反思。实验通过离线专家和在线强化学习两种方式训练μ,在EmbodiedBench多个子集上显著提升任务完成能力,平均提升约16%,部分指令子集提升超20%。定性分析表明,μ增强的MLLM在处理长且复杂指令时表现更优。
Agent Memory 多模态大语言模型
论文核心提出MemCtrl框架,直接研究Agent在线记忆控制机制。
BMAM: Brain-inspired Multi-Agent Memory Framework
Yang Li, Jiaxiang Liu, Yusong Wang, Yujie Wu, Mingkun Xu
10/10 2026-01-28 cs.CL PDF
基于语言模型的智能体在长期交互中面临时序信息保持与跨会话行为一致性的挑战,作者称之为“灵魂侵蚀”。本文提出BMAM(脑启发的多智能体记忆框架),一种通用记忆架构,将智能体记忆建模为多个功能特化的子系统,而非单一非结构化存储。受认知记忆系统启发,BMAM将记忆分解为情景记忆、语义记忆、显著性感知记忆和控制导向记忆,各子系统在互补的时间尺度上运作。为支持长时程推理,BMAM沿显式时间线组织情景记忆,并通过融合多种互补信号进行检索。在LoCoMo基准上的实验表明,BMAM在标准长时程评估设置下达到78.45%的准确率,消融分析证实受海马体启发的情景记忆子系统对时序推理至关重要。
情景记忆 多智能体系统
论文核心提出脑启发的多智能体记忆架构BMAM,明确聚焦Agent Memory机制。
Grounding Agent Memory in Contextual Intent
Ruozhen Yang, Yucheng Jiang, Yueqi Jiang, Priyanka Kargupta, Yunyi Zhang et al.
10/10 2026-01-15 cs.CL PDF
在长周期、目标导向的交互中部署大语言模型仍具挑战,因相同实体和事实在不同潜在目标与约束下反复出现,导致记忆系统检索到上下文不匹配的证据。本文提出STITCH(上下文历史中的结构化意图追踪),一种智能体记忆系统,通过结构化检索线索——上下文意图(包括当前潜在目标、动作类型和关键实体类型)对轨迹每一步进行索引,并依据当前步骤意图匹配历史记忆。推理时,STITCH按意图兼容性筛选并优先排序记忆片段,抑制语义相似但上下文不兼容的历史信息。在新构建的CAME-Bench及LongMemEval基准上,STITCH取得SOTA性能,较最强基线提升35.6%,且随轨迹长度增加优势更显著。
Agent Memory 上下文意图 记忆检索 长周期推理
论文核心提出新型Agent Memory系统STITCH,聚焦记忆检索与上下文意图对齐。
Continuum Memory Architectures for Long-Horizon LLM Agents
Joe Logan
10/10 2026-01-14 cs.AI PDF
检索增强生成(RAG)已成为为大语言模型(LLM)智能体提供上下文知识的默认策略,但其将记忆视为无状态的查找表:信息无限期保留、检索为只读且缺乏时间连续性。本文提出“连续记忆架构”(CMA),一类通过持久存储、选择性保留、关联路由、时间链式连接及向高阶抽象整合来维护并更新交互间内部状态的系统。作者未披露具体实现,而是阐明CMA的架构要求,并在知识更新、时间关联、关联回忆与上下文消歧等任务中验证其相较于RAG在累积、变异与消歧记忆方面的结构性优势,证明CMA是长周期智能体的必要架构原语,同时指出延迟、漂移与可解释性等开放挑战。
Agent Memory Long-Horizon Agents
论文提出连续记忆架构CMA,核心聚焦LLM Agent记忆机制设计。
$A^3$-Bench: Benchmarking Memory-Driven Scientific Reasoning via Anchor and Attractor Activation
Jian Zhang, Yu He, Zhiyuan Wang, Zhangqi Wang, Kai He et al.
10/10 2026-01-14 cs.AI PDF
科学推理不仅依赖逻辑推断,还需激活先验知识与经验结构。记忆可高效复用知识,提升推理的一致性与稳定性。然而,现有基准主要评估最终答案或逐步连贯性,忽视了人类推理中基于锚点(anchor)与吸引子(attractor)激活并整合至多步推理的记忆驱动机制。为此,本文提出A³-Bench基准,通过双尺度记忆驱动激活评估科学推理能力。首先,采用SAPM流程(主题、锚点与吸引子、问题、记忆发展)标注2,198个跨领域科学推理问题;其次,构建基于锚点与吸引子的双尺度记忆评估框架,并引入AAUI(锚点-吸引子利用率指数)度量记忆激活率;最后,通过多种基础模型与范式的实验验证该基准,并分析记忆激活对推理性能的影响,为记忆驱动的科学推理提供新见解。
Agent Memory Scientific Reasoning
论文聚焦记忆驱动的科学推理机制,明确构建基于锚点与吸引子的记忆激活评估框架。
Code
The AI Hippocampus: How Far are We From Human Memory?
Zixia Jia, Jiaqi Li, Yipeng Kang, Yuxuan Wang, Tong Wu et al.
10/10 2026-01-14 cs.AI PDF
记忆在增强现代大语言模型(LLM)及多模态大语言模型(MLLM)的推理能力、适应性与上下文保真度方面起着基础性作用。随着模型从静态预测器向支持持续学习与个性化推理的交互系统演进,记忆机制已成为其架构与功能发展的核心主题。本文对LLM与MLLM中的记忆研究进行了系统性综述,提出包含隐式、显式与智能体记忆三大范式的统一分类体系。隐式记忆指预训练Transformer参数中嵌入的知识;显式记忆利用外部存储实现可查询的动态知识表示;智能体记忆则支持自主智能体的长期规划与多智能体协作。文章还探讨了多模态场景下的记忆整合,并分析了关键架构进展、基准任务及开放挑战。
Agent Memory Large Language Models
论文系统综述LLM与多模态Agent中的记忆机制,明确聚焦记忆架构。
Memory Matters More: Event-Centric Memory as a Logic Map for Agent Searching and Reasoning
Yuyang Hu, Jiongnan Liu, Jiejun Tan, Yutao Zhu, Zhicheng Dou
Jiongnan Liu (GSAI, Renmin University of China) | Jiejun Tan (Renmin University of China)
10/10 2026-01-08 cs.AI PDF
大语言模型(LLMs)正越来越多地被部署为能在环境中推理、规划和交互的智能体。为有效应对长周期任务,此类智能体亟需一种能保留、组织并检索过往经验以支持下游决策的记忆机制。然而,现有方法多以扁平方式组织记忆,并依赖简单的相似性检索;即便引入结构化记忆,也难以显式捕捉经验单元间的逻辑关系,且记忆访问仍脱离结构、依赖浅层语义检索,阻碍了长程逻辑推理。本文提出受事件分割理论启发的事件中心记忆框架CompassMem,通过将经验增量划分为事件并以显式逻辑关系连接,构建事件图作为逻辑图谱,使智能体能超越表层检索,进行结构化、目标导向的记忆导航,逐步聚合关键记忆以支持长程推理。在LoCoMo和NarrativeQA上的实验表明,CompassMem在多种主干模型上均显著提升检索与推理性能。
事件中心记忆 逻辑图谱
论文核心提出事件中心的记忆框架CompassMem,直接聚焦Agent Memory机制。
Beyond Static Summarization: Proactive Memory Extraction for LLM Agents
Chengyuan Yang, Zequn Sun, Wei Wei, Wei Hu
10/10 2026-01-08 cs.CL PDF
记忆管理对大语言模型(LLM)智能体实现长期交互与个性化至关重要。现有研究多关注记忆摘要的组织与使用,却忽视了初始记忆提取阶段。本文基于递归加工理论指出,当前基于摘要的方法存在两大局限:一是摘要为“提前进行”的盲目前馈过程,因无法预知未来任务而遗漏关键细节;二是提取通常为“一次性”操作,缺乏事实验证的反馈机制,导致信息损失累积。为此,我们提出主动记忆提取方法(ProMem),将提取视为迭代认知过程,通过自问自答机制构建递归反馈回路,主动探查对话历史以恢复缺失信息并修正错误。实验表明,ProMem显著提升了记忆提取的完整性与问答准确率,并在提取质量与token开销之间实现了更优权衡。
LLM Agent Memory Extraction
论文聚焦LLM Agent记忆提取机制,提出ProMem框架,属核心记忆研究。
Inside Out: Evolving User-Centric Core Memory Trees for Long-Term Personalized Dialogue Systems
Jihao Zhao, Ding Chen, Zhaoxin Fan, Kerun Xu, Mengting Hu et al.
10/10 2026-01-08 cs.CL PDF
现有长期个性化对话系统难以在无限交互流与有限上下文约束之间取得平衡,常导致记忆噪声累积、推理能力退化及角色不一致。本文提出Inside Out框架,利用全局维护的PersonaTree作为长期用户画像载体:通过初始模式约束主干,并动态更新分支与叶节点,实现可控增长,在压缩记忆的同时保持一致性。此外,通过基于过程奖励的强化学习训练轻量级MemListener模型,生成结构化、可执行且可解释的{ADD, UPDATE, DELETE, NO_OP}操作,支持个性化记忆树的动态演化。响应生成时,PersonaTree可直接用于低延迟场景;当需更多细节时,则触发智能体模式按需引入受控细节。实验表明,PersonaTree在抑制上下文噪声和维持角色一致性方面优于全文拼接及其他个性化记忆系统,且小型MemListener在记忆操作决策上性能媲美甚至超越DeepSeek-R1-0528和Gemini-3-Pro等强大推理模型。
核心记忆架构 个性化对话系统
论文提出PersonaTree核心记忆架构,直接解决Agent长期记忆建模问题。
Controllable Memory Usage: Balancing Anchoring and Innovation in Long-Term Human-Agent Interaction
Muzhao Tian, Zisu Huang, Xiaohua Wang, Jingwen Xu, Zhengkang Guo et al.
10/10 2026-01-08 cs.AI PDF
随着基于大语言模型的智能体越来越多地应用于长期交互场景,累积记忆对于实现个性化和保持风格一致性至关重要。然而,现有系统多采用“全有或全无”的记忆使用方式:纳入所有相关历史信息易导致“记忆锚定”,使智能体受困于过往交互;而完全排除记忆则造成重要交互历史的丢失。本文提出可建模并由用户显式控制的记忆依赖维度,首先引入衡量记忆依赖程度的行为指标,进而提出可调控记忆智能体(SteeM)框架,允许用户动态调节记忆依赖程度,从鼓励创新的“全新开始”模式到高度忠实于交互历史的“高保真”模式。多场景实验表明,该方法显著优于传统提示和固定记忆屏蔽策略,为个性化人机协作提供了更精细有效的控制手段。
可控记忆 记忆锚定 长期交互 个性化智能体
论文聚焦于LLM Agent中记忆使用的可控性,提出核心记忆调控机制。
Membox: Weaving Topic Continuity into Long-Range Memory for LLM Agents
Dehao Tao, Guoliang Ma, Yongfeng Huang, Minghu Jiang
10/10 2026-01-07 cs.CL PDF
人机对话常表现出话题连续性——即在时间相邻的交互中演化的稳定主题框架,但现有大语言模型(LLM)智能体记忆系统难以保留这一特性。当前方法多采用“碎片化-补偿”范式:先将对话流拆分为孤立语句存储,再通过嵌入检索恢复连贯性,此过程不可逆地破坏叙事与因果流,并偏向词汇相似性。本文提出Membox,一种以“话题织机”(Topic Loom)为核心的分层记忆架构,通过滑动窗口持续监测对话,将连续同主题轮次在存储时聚合成连贯的“记忆盒”;随后由“轨迹编织器”(Trace Weaver)将封存的记忆盒链接为长程事件时间线,恢复跨间断的宏观话题重现。在LoCoMo数据集上的实验表明,Membox在时序推理任务中F1最高提升68%,优于Mem0、A-MEM等基线,且仅使用现有方法一小部分上下文token,显著兼顾效率与效果。
LLM Agent Memory 话题连续性
论文提出Membox架构,核心解决LLM Agent中话题连续性的长期记忆建模问题。
Mem-Gallery: Benchmarking Multimodal Long-Term Conversational Memory for MLLM Agents
Yuanchen Bei, Tianxin Wei, Xuying Ning, Yanjun Zhao, Zhining Liu et al.
10/10 2026-01-07 cs.CL PDF
长期记忆是多模态大语言模型(MLLM)智能体的关键能力,尤其在信息随时间累积和演化的对话场景中。然而,现有评测基准要么仅评估纯文本多轮对话中的记忆能力,要么在局部上下文中考察多模态理解,无法有效衡量多模态记忆在长期对话轨迹中的保存、组织与演化。为此,本文提出Mem-Gallery——一个用于评估MLLM智能体多模态长期对话记忆的新基准。该基准包含基于视觉与文本信息的高质量多轮对话,具有长交互周期和丰富的多模态依赖关系。在此基础上,作者构建了一个系统性评估框架,从记忆提取与测试时适应、记忆推理、记忆知识管理三个功能维度评估关键记忆能力。对十三种记忆系统的广泛评测揭示了当前模型在显式多模态信息保留与组织方面的必要性、记忆推理与知识管理的持续局限,以及效率瓶颈。
多模态记忆 长期对话记忆
论文聚焦多模态大语言模型智能体的长期对话记忆机制,提出专门评测基准。
SYNAPSE: Empowering LLM Agents with Episodic-Semantic Memory via Spreading Activation
Hanqi Jiang, Junhao Chen, Yi Pan, Ling Chen, Weihang You et al.
10/10 2026-01-06 cs.CL PDF
尽管大语言模型(LLMs)在通用推理方面表现出色,但现有检索增强方法难以应对智能体长期记忆的碎片化问题。为此,本文提出Synapse(协同联想处理语义编码),一种超越静态向量相似性的统一记忆架构。受认知科学启发,Synapse将记忆建模为动态图结构,其相关性通过扩散激活机制而非预计算链接生成。系统结合侧向抑制与时间衰减机制,动态突出相关子图并抑制干扰信息。我们设计了一种三重混合检索策略,融合几何嵌入与基于激活的图遍历。在LoCoMo基准上的综合评估表明,Synapse在复杂时序与多跳推理任务中显著优于当前最先进方法,有效缓解“上下文隧道”问题。代码与数据将在论文录用后公开。
情景-语义记忆 扩散激活
论文提出基于认知科学的动态图记忆架构,核心解决Agent长期记忆问题。
MAGMA: A Multi-Graph based Agentic Memory Architecture for AI Agents
Dongming Jiang, Yi Li, Guanpeng Li, Bingzhe Li
10/10 2026-01-06 cs.AI PDF
记忆增强生成(MAG)通过外部记忆扩展大语言模型以支持长上下文推理,但现有方法主要依赖单一记忆库中的语义相似性,将时间、因果和实体信息混杂在一起,限制了可解释性及查询意图与检索证据的一致性,导致推理准确性不足。本文提出MAGMA——一种多图智能体记忆架构,将每个记忆项在正交的语义、时间、因果和实体图中分别表示,并将检索建模为在这些关系视图上的策略引导遍历,实现查询自适应的记忆选择与结构化上下文构建。通过解耦记忆表示与检索逻辑,MAGMA提供透明的推理路径和细粒度的检索控制。在LoCoMo和LongMemEval上的实验表明,MAGMA在长周期推理任务中持续优于当前最先进的智能体记忆系统。
Agent Memory Memory Architecture
论文提出多图结构的Agent记忆架构,核心聚焦记忆表示与检索机制。
MemRL: Self-Evolving Agents via Runtime Reinforcement Learning on Episodic Memory
Shengtao Zhang, Jiaqian Wang, Ruiwen Zhou, Junwei Liao, Yuchen Feng et al.
Ruiwen Zhou (National University of Singapore)
10/10 2026-01-06 cs.CL PDF
人类智能的核心在于通过建构性情景模拟——调用过往经验以合成新任务的解决方案——掌握新技能。尽管大语言模型具备强大推理能力,却难以实现此类自进化:微调计算成本高且易灾难性遗忘,现有基于记忆的方法依赖被动语义匹配,常检索到噪声信息。为此,本文提出MemRL框架,使智能体能在情景记忆上进行非参数化强化学习以实现自进化。MemRL明确分离冻结LLM的稳定推理能力与可塑、演化的记忆模块,并采用两阶段检索机制:先按语义相关性筛选候选记忆,再基于学习到的Q值(效用)进行选择。这些效用值通过环境反馈以试错方式持续优化,使智能体能从相似噪声中识别高价值策略。在HLE、BigCodeBench、ALFWorld和Lifelong Agent Bench上的实验表明,MemRL显著优于当前最先进基线。分析实验证实其有效调和了稳定性-可塑性困境,实现无需权重更新的持续运行时改进。
情景记忆 强化学习
论文核心提出基于情景记忆的强化学习框架MemRL,直接聚焦Agent Memory机制。
SimpleMem: Efficient Lifelong Memory for LLM Agents
Jiaqi Liu, Yaofeng Su, Peng Xia, Siwei Han, Zeyu Zheng et al.
Peng Xia (UNC-Chapel Hill)
10/10 2026-01-05 cs.AI PDF
为支持大语言模型(LLM)智能体在复杂环境中进行可靠的长期交互,需构建能高效管理历史经验的记忆系统。现有方法或通过被动扩展上下文保留完整交互历史,导致严重冗余;或依赖迭代推理过滤噪声,带来高昂的token开销。为此,本文提出SimpleMem——一种基于语义无损压缩的高效记忆框架,包含三个阶段:(1) 语义结构化压缩,利用熵感知过滤将非结构化交互提炼为紧凑、多视角索引的记忆单元;(2) 递归记忆整合,异步地将相关单元融合为更高层抽象表示以减少冗余;(3) 自适应查询感知检索,根据查询复杂度动态调整检索范围,高效构建精准上下文。实验表明,该方法在准确率、检索效率和推理成本方面均显著优于基线,F1平均提升26.4%,推理token消耗最多降低30倍。
LLM Agent Memory System
论文聚焦LLM Agent的终身记忆机制,提出高效记忆系统SimpleMem。
Code
Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents
Yi Yu, Liuyi Yao, Yuexiang Xie, Qingquan Tan, Jiaqi Feng et al.
10/10 2026-01-05 cs.CL PDF
大语言模型(LLM)智能体因上下文窗口有限,在长时程推理中面临根本性限制,高效记忆管理至关重要。现有方法通常将长期记忆(LTM)与短期记忆(STM)作为独立组件处理,依赖启发式规则或辅助控制器,限制了适应性与端到端优化。本文提出Agentic Memory(AgeMem),一种将LTM与STM管理直接融入智能体策略的统一框架。AgeMem将记忆操作建模为基于工具的动作,使LLM智能体能自主决定何时及如何存储、检索、更新、摘要或丢弃信息。为训练此类统一行为,作者设计了三阶段渐进式强化学习策略,并提出逐步GRPO算法以应对记忆操作带来的稀疏与不连续奖励。在五个长时程基准上的实验表明,AgeMem在多种LLM主干上均显著优于强基线,提升了任务性能、长期记忆质量及上下文使用效率。
LLM Agent Memory Management
论文标题与内容均聚焦于LLM Agent的统一长短期记忆管理机制。
EverMemOS: A Self-Organizing Memory Operating System for Structured Long-Horizon Reasoning
Chuanrui Hu, Xingze Gao, Zuyi Zhou, Dannong Xu, Yi Bai et al.
10/10 2026-01-05 cs.AI PDF
大型语言模型(LLMs)日益被部署为长期交互式智能体,但其有限的上下文窗口难以维持长时间交互中的一致行为。现有记忆系统通常存储孤立记录并检索片段,难以整合动态演化的用户状态与解决冲突。本文提出EverMemOS——一种受记忆印迹(engram)启发的自组织记忆操作系统。其包含三个核心阶段:情景痕迹形成将对话流转化为包含情景痕迹、原子事实和时限性前瞻信号的MemCells;语义巩固将MemCells组织为主题性MemScenes,提炼稳定语义结构并更新用户画像;重构式回忆基于MemScene引导智能体检索,组合下游推理所需的充分必要上下文。在LoCoMo和LongMemEval上的实验表明,EverMemOS在记忆增强推理任务中达到最先进性能,并通过PersonaMem v2画像研究与案例分析展示了其在用户建模与前瞻能力方面的优势。
Agent Memory Memory Operating System
论文提出专用于LLM Agent的自组织记忆操作系统,核心聚焦记忆机制。
Code
Improving Multi-step RAG with Hypergraph-based Memory for Long-Context Complex Relational Modeling
Chulun Zhou, Chunkang Zhang, Guoxin Yu, Fandong Meng, Jie Zhou et al.
10/10 2025-12-30 cs.CL PDF
多步检索增强生成(RAG)广泛用于提升大语言模型在需全局理解与深度推理任务中的表现。现有RAG系统虽引入工作记忆模块整合检索信息,但其记忆设计多为被动存储,仅累积孤立事实,忽视高阶关联,导致推理碎片化与全局理解能力弱。本文提出HGMem——一种基于超图的记忆机制,将记忆从静态存储拓展为支持复杂推理的动态表达结构。该机制以超图表示记忆,超边对应记忆单元,逐步构建高阶交互,围绕核心问题融合事实与思考,形成情境化知识结构,为后续推理提供强命题支持。在多个全局理解基准上的实验表明,HGMem显著优于强基线系统。
超图记忆 多步RAG
论文核心提出基于超图的Agent记忆机制HGMem,直接聚焦记忆结构创新。
Memento 2: Learning by Stateful Reflective Memory
Jun Wang
10/10 2025-12-27 cs.AI PDF
本文研究基于大语言模型(LLM)的智能体如何通过将情景记忆与强化学习相结合实现持续学习。聚焦于“反思”能力——即智能体重访过往经验并调整未来行动选择——作为无需微调模型权重即可持续适应的核心机制。为此,作者提出状态化反思决策过程(SRDP),其中智能体维护并更新情景记忆,并在写入新经验与读取相关案例以指导决策之间交替。该框架将反思记忆动态纳入决策过程本身,使其可被控制与分析。基于此,作者开发了读写反思学习算法,将其记忆检索机制融入软策略迭代过程,并证明其收敛性;同时表明随着记忆增长并更密集覆盖任务环境,所得策略趋近最优。该工作统一了基于记忆的推理与强化学习,为具备持续、经验驱动学习能力的LLM智能体提供了形式化基础。
反思记忆 情景记忆
论文核心研究反思性记忆机制及其在LLM智能体中的形式化与学习算法。
Beyond Heuristics: A Decision-Theoretic Framework for Agent Memory Management
Changzhi Sun, Xiangyu Chen, Jixiang Luo, Dell Zhang, Xuelong Li
10/10 2025-12-25 cs.CL PDF
外部记忆是现代大语言模型(LLM)系统的关键组件,支持长期交互与个性化。然而,当前记忆管理仍主要依赖人工设计的启发式规则,难以评估记忆决策在长期和不确定性下的影响。本文主张将记忆管理视为一个不确定性下的序贯决策问题,其中记忆效用具有延迟性且依赖于未来交互。为此,作者提出DAM(决策理论智能体记忆)框架,将记忆管理分解为即时信息访问与分层存储维护两部分,并通过价值函数与不确定性估计器评估候选操作,从而基于长期效用与风险制定聚合策略。本文贡献并非新算法,而是一种原则性重构,揭示了启发式方法的局限,并为未来不确定性感知的记忆系统研究奠定基础。
Agent Memory Decision Theory
论文聚焦Agent Memory管理机制,提出决策理论框架,属核心研究。
MemEvolve: Meta-Evolution of Agent Memory Systems
Guibin Zhang, Haotian Ren, Chong Zhan, Zhenhong Zhou, Junhao Wang et al.
10/10 2025-12-21 cs.CL PDF
自演化记忆系统正在前所未有地重塑基于大语言模型(LLM)的智能体进化范式。以往工作主要依赖人工设计的记忆架构来存储轨迹、提炼经验并合成可复用工具,使智能体能在环境交互中实时进化。然而,该范式受限于记忆系统本身的静态性:尽管记忆促进智能体层面的演化,其底层架构却无法针对不同任务上下文进行元适应。为此,本文提出MemEvolve——一种元演化框架,联合优化智能体的经验知识与其记忆架构,使其不仅能积累经验,还能持续改进学习方式。为夯实研究基础并推动开放性,我们构建了EvolveLab,一个统一的自演化记忆代码库,将十二种代表性记忆系统抽象为模块化设计空间(编码、存储、检索、管理),提供标准化实现与公平实验平台。在四个具挑战性的智能体基准上的大量实验表明,MemEvolve不仅显著提升性能(如SmolAgent和Flash-Searcher最高提升17.06%),还展现出强大的跨任务与跨LLM泛化能力。
Agent Memory Meta-Evolution
论文核心聚焦于Agent Memory架构的元演化机制,标题与内容均明确围绕记忆系统展开。
CogMem: A Cognitive Memory Architecture for Sustained Multi-Turn Reasoning in Large Language Models
Yiran Zhang, Jincheng Hu, Mark Dras, Usman Naseem
10/10 2025-12-16 cs.CL PDF
大语言模型(LLMs)在单轮推理中表现优异,但在长时间、多轮交互中常出现准确性与连贯性下降的问题。近期评估基准如TurnBench揭示了反复出现的失败模式,包括推理偏差、任务漂移、幻觉、过度自信和记忆衰减。现有方法通常直接拼接完整对话历史,导致上下文无界增长、计算开销增加及推理效率下降。本文提出CogMem——一种受认知科学启发的记忆增强型LLM架构,通过结构化、持久化的记忆支持持续迭代推理。CogMem包含三层:长期记忆(LTM)用于跨会话推理策略整合;直接访问(DA)记忆维护会话级笔记并检索相关长期记忆;注意力焦点(FoA)机制在每轮动态重构简洁、任务相关的上下文。在TurnBench上的实验表明,该分层设计有效缓解推理失败、控制上下文膨胀,并提升长推理链的一致性,推动LLM实现更可靠、类人的推理能力。
认知记忆 多轮推理
论文提出专用于LLM多轮推理的认知记忆架构CogMem,核心聚焦记忆机制设计。
Hindsight is 20/20: Building Agent Memory that Retains, Recalls, and Reflects
Chris Latimer, Nicoló Boschi, Andrew Neeser, Chris Bartholomew, Gaurav Srivastava et al.
10/10 2025-12-14 cs.CL PDF
智能体记忆被视为基于大语言模型应用的重要发展方向,可使智能体积累经验、跨会话适应并超越单次问答。当前记忆系统多将记忆视为外部层,从对话中提取关键片段并存入向量或图数据库,再检索至提示中。然而,这类方法难以区分证据与推断、长期组织信息能力有限,且缺乏对可解释推理的支持。本文提出Hindsight架构,将记忆建模为支持推理的一等结构,划分为事实、经验、实体摘要与信念四个逻辑网络,并支持保留(retain)、回忆(recall)和反思(reflect)三大操作。实验表明,该方法在LongMemEval和LoCoMo等长程记忆基准上显著优于全上下文基线及GPT-4o。
Agent Memory Structured Memory
论文核心聚焦于LLM Agent Memory架构设计与机制创新。
Memoria: A Scalable Agentic Memory Framework for Personalized Conversational AI
Samarth Sarin, Lovepreet Singh, Bhaskarjit Sarmah, Dhagash Mehta
10/10 2025-12-14 cs.AI PDF
智能体记忆正成为大语言模型(LLM)在长期用户交互中维持连续性、个性化和上下文感知的关键能力,是实现真正交互式与自适应智能体的核心。本文提出Memoria——一种模块化记忆框架,通过持久、可解释且富含上下文的记忆机制增强基于LLM的对话系统。Memoria融合了动态会话级摘要与基于加权知识图谱的用户建模引擎,后者以结构化实体与关系形式增量捕获用户特征、偏好及行为模式。该混合架构在现代LLM的token限制下,兼顾短期对话连贯性与长期个性化。实验表明,Memoria有效弥合了无状态LLM接口与智能体记忆系统之间的鸿沟,为需自适应演进用户体验的工业应用提供了实用方案。
智能体记忆 个性化对话系统
论文聚焦于Agent Memory架构设计,标题与内容均以记忆机制为核心。
Unifying Dynamic Tool Creation and Cross-Task Experience Sharing through Cognitive Memory Architecture
Jiarun Liu, Shiyue Xu, Yang Li, Shangkun Liu, Yongli Yu et al.
10/10 2025-12-12 cs.CL PDF
大语言模型智能体在适应新任务时面临工具可用性与经验复用的挑战。现有方法或依赖覆盖有限的预定义工具,或从零构建工具而忽视过往经验,导致探索效率低下与性能欠佳。本文提出SMITH(共享记忆集成工具中心),一种统一的认知架构,通过分层记忆组织无缝整合动态工具创建与跨任务经验共享。SMITH将智能体记忆划分为程序性、语义性和情景性三部分,支持系统化能力扩展并保留成功执行模式。该方法将工具创建形式化为受控沙箱环境中的迭代代码生成,并通过语义相似性匹配的情景记忆检索实现经验共享。此外,作者提出基于智能体集成难度重估的课程学习策略。在GAIA基准上的大量实验表明,SMITH以81.8%的Pass@1准确率显著优于Alita(75.2%)和Memento(70.9%)等前沿基线,为构建能通过工具创建与经验积累持续进化的自适应智能体奠定基础。
认知架构 分层记忆
论文提出基于分层记忆架构的认知系统,核心聚焦于Agent Memory机制。
ES-MemEval: Benchmarking Conversational Agents on Personalized Long-Term Emotional Support
Tiantian Chen, Jiaqi Lu, Ying Shen, Lin Zhang
9/10 2026-02-02 cs.CL PDF
大语言模型(LLMs)在对话智能体中展现出强大潜力,但在如在线情感支持等复杂长期网络服务中,其效果受限于鲁棒的长期记忆能力不足。现有长期对话评测基准主要关注静态、显式事实检索,难以评估用户信息分散、隐含且持续演变的关键场景。为此,本文提出ES-MemEval,一个系统评估长期情感支持中五项核心记忆能力(信息抽取、时序推理、冲突检测、拒答机制和用户建模)的综合基准,涵盖问答、摘要与对话生成任务。同时构建了EvoEmo多会话数据集,捕捉碎片化、隐式用户披露及动态演变的用户状态。实验表明,显式长期记忆对减少幻觉和实现有效个性化至关重要;检索增强(RAG)虽提升事实一致性,但在处理时序动态与用户状态演化方面仍存挑战。
长期记忆 情感支持对话系统
聚焦长期记忆能力评估,提出专门基准与数据集。
FreshMem: Brain-Inspired Frequency-Space Hybrid Memory for Streaming Video Understanding
Kangcong Li, Peng Ye, Lin Zhang, Chao Wang, Huafeng Qin et al.
9/10 2026-02-02 cs.CV PDF
将多模态大语言模型(MLLMs)从离线处理转向在线流式视频理解对持续感知至关重要。然而,现有方法缺乏灵活适应性,导致细节不可逆丢失与上下文碎片化。为此,本文提出FreshMem——一种受大脑对数感知与记忆巩固机制启发的频域-空间混合记忆网络。FreshMem通过两个协同模块实现短期保真与长期连贯性的统一:多尺度频域记忆(MFM)将溢出帧投影为代表性频率系数,并结合残差细节重建全局历史“概要”;空间缩略图记忆(STM)则通过自适应压缩策略将连续流离散为情节簇,并提炼为高密度空间缩略图。大量实验表明,FreshMem在无需训练的情况下显著提升Qwen2-VL基线,在StreamingBench、OV-Bench和OVO-Bench上分别获得5.20%、4.52%和2.34%的性能增益,优于多个全微调方法。
Agent Memory 流式视频理解
论文提出新型混合记忆架构FreshMem,核心聚焦于流式视频理解中的记忆机制设计。
FS-Researcher: Test-Time Scaling for Long-Horizon Research Tasks with File-System-Based Agents
Chiwei Zhu, Benfeng Xu, Mingxuan Du, Shaohan Wang, Xiaorui Wang et al.
9/10 2026-02-02 cs.CL PDF
深度研究正成为大语言模型(LLM)智能体的典型长周期任务。然而,其长轨迹常超出模型上下文限制,压缩了证据收集与报告撰写的token预算,阻碍了有效的测试时扩展。本文提出FS-Researcher——一种基于文件系统的双智能体框架,通过持久化工作区将深度研究扩展至上下文窗口之外。其中,Context Builder智能体作为“图书管理员”,负责浏览网络、撰写结构化笔记,并将原始资料归档至可远超上下文长度的分层知识库;Report Writer智能体则逐节撰写最终报告,以该知识库为事实来源。文件系统在此充当持久外部记忆与跨智能体、跨会话的共享协调媒介,支持上下文窗口外的迭代优化。在DeepResearch Bench和DeepConsult两个开放式基准上的实验表明,FS-Researcher在不同主干模型上均取得最先进的报告质量。进一步分析证实,最终报告质量与分配给Context Builder的计算资源呈正相关,验证了该文件系统范式下有效的测试时扩展能力。
外部记忆 文件系统 长周期任务 测试时扩展
提出基于文件系统的持久化外部记忆机制,是Agent Memory的核心架构创新。
SpeechLess: Micro-utterance with Personalized Spatial Memory-aware Assistant in Everyday Augmented Reality
Yoonsang Kim, Devshree Jadeja, Divyansh Pradhan, Yalong Yang, Arie Kaufman
9/10 2026-01-31 cs.HC PDF
在公共场所对可穿戴AR助手大声说话可能引发社交尴尬,且每日重复表达相同请求造成不必要的负担。本文提出SpeechLess——一种可穿戴AR助手,引入基于个性化空间记忆的语音意图粒度控制范式,使用户“少说多得”,并在需要复杂表达时支持意图的逐步显式化。SpeechLess将先前交互绑定到多模态个人上下文(包括空间、时间、活动和指代对象)以形成空间记忆,并据此从不完整用户查询中推断缺失的意图维度,从而支持从完整语句到微/零语音交互的动态调整。通过为期一周的预研实验揭示了公共语音使用的不适感、重复语音的挫败感及硬件限制;在此基础上设计并评估了SpeechLess。结果表明,该系统可在多样日常环境中有效提升信息获取效率、降低表达负担,并支持社交可接受性,同时不显著损害可用性感知与意图解析准确率。
空间记忆 增强现实
论文核心提出基于个性化空间记忆的意图推断机制,直接构建和利用空间记忆系统。
Dual Latent Memory for Visual Multi-agent System
Xinlei Yu, Chengming Xu, Zhangquan Chen, Bo Yin, Cheng Yang et al.
9/10 2026-01-31 cs.AI PDF
尽管视觉多智能体系统(VMAS)有望通过智能体间协作提升综合能力,但实证研究表明存在反直觉的“扩展壁垒”:增加智能体轮次常导致性能下降并指数级增加token消耗。作者将此归因于以文本为中心通信中的信息瓶颈——将感知与思维轨迹转化为离散自然语言不可避免地造成语义损失。为此,本文提出L²-VMAS,一种模型无关的框架,通过双潜记忆实现智能体协作,并解耦感知与思维过程,动态融合两类潜记忆。此外,引入熵驱动的主动触发机制,以按需记忆访问替代被动信息传输。大量实验表明,该方法有效突破“扩展壁垒”,平均准确率提升2.7–5.4%,同时减少21.3–44.8%的token使用。
多智能体系统 潜记忆
论文提出双潜记忆机制,核心解决Agent间记忆传递与信息瓶颈问题。
When Agents "Misremember" Collectively: Exploring the Mandela Effect in LLM-based Multi-Agent Systems
Naen Xu, Hengyu An, Shuo Shi, Jinghuai Zhang, Chunyi Zhou et al.
9/10 2026-01-31 cs.CL PDF
近期大语言模型(LLM)的进步显著提升了协作式多智能体系统处理复杂任务的能力。然而,这些系统中智能体对集体认知偏差的易感性仍缺乏深入研究,典型如曼德拉效应——群体因社会影响和内化错误信息而共同错误记忆过往事件。本文系统研究了LLM多智能体系统中的曼德拉效应,探究其存在性、成因及缓解策略。我们提出MANBENCH基准,涵盖四类易受该效应影响的任务和五种不同角色与记忆时间尺度的交互协议,并在多个LLM驱动的智能体上进行评估。此外,提出提示层防御(如认知锚定、信源审查)和模型层对齐防御策略,相较基线平均降低74.40%的曼德拉效应。本研究为构建更具鲁棒性与伦理一致性的协作多智能体系统提供了重要洞见。
集体记忆 认知偏差
聚焦多智能体系统中的集体记忆偏差,核心探讨记忆机制与失真问题。
MiTa: A Hierarchical Multi-Agent Collaboration Framework with Memory-integrated and Task Allocation
XiaoJie Zhang, JianHan Wu, Xiaoyang Qu, Jianzong Wang
9/10 2026-01-30 cs.ET PDF
大语言模型(LLM)的最新进展显著推动了具身智能体的发展。基于LLM的多智能体系统缓解了单智能体在复杂任务中的低效问题,但仍面临记忆不一致与智能体行为冲突等挑战。为此,本文提出MiTa——一种融合记忆与任务分配的分层协作框架,通过管理者-成员层级结构提升协作效率。管理者配备任务分配与摘要模块:前者实现全局任务分配以避免智能体间冲突;后者在任务进展更新时触发,将近期协作历史压缩为简洁摘要,保留长时程上下文。实验表明,MiTa在复杂多智能体协作任务中相较强基线方法展现出更优的效率与适应性。
多智能体系统 情景记忆
论文核心提出记忆整合机制,标题明确包含memory,且记忆是协作框架的关键组成部分。
MoVE: Mixture of Value Embeddings -- A New Axis for Scaling Parametric Memory in Autoregressive Models
Yangyan Li
9/10 2026-01-30 cs.LG PDF
自回归序列建模是现代生成式AI的基石,但其模型容量与计算成本紧密耦合:扩展参数化记忆(如事实知识或视觉模式)通常需加深或加宽网络,导致计算开销线性增长。本文提出MoVE(值嵌入混合)机制,通过在所有注意力层共享一个可学习的全局值嵌入库,并在每步序列中使用可微软门控动态混合检索到的概念与标准值投影,从而将记忆与计算解耦。该架构允许仅通过增加嵌入槽位数量独立扩展参数化记忆。在文本与图像生成任务上的严格实验表明,MoVE显著优于标准及分层记忆基线,可在相同计算预算下构建“记忆密集型”模型,实现更低困惑度与更高生成保真度。
参数化记忆 自回归模型
提出MoVE机制,直接解耦参数化记忆与计算,核心研究记忆架构。
AutoRefine: From Trajectories to Reusable Expertise for Continual LLM Agent Refinement
Libin Qiu, Zhirong Gao, Junfu Chen, Yuhang Ye, Weizhi Huang et al.
9/10 2026-01-30 cs.AI PDF
大语言模型智能体常难以从经验中积累知识,将每个任务视为独立挑战。现有方法将经验提取为扁平文本知识,无法捕捉复杂子任务的程序逻辑,且缺乏维护机制,导致经验库随积累而退化。本文提出AutoRefine框架,从智能体执行历史中提取并维护双形态经验模式:对程序性子任务,提取具备独立推理与记忆能力的专用子智能体;对静态知识,则提取为指南或代码片段形式的技能模式。框架还包含持续维护机制,通过评分、剪枝与合并防止经验库退化。在ALFWorld、ScienceWorld和TravelPlanner上的实验表明,AutoRefine分别达到98.4%、70.4%和27.1%的成功率,并减少20–73%的执行步骤;在TravelPlanner上,其自动提取性能超越人工设计系统(27.1% vs 12.1%),验证了其捕获程序协调能力的有效性。
经验记忆 持续学习
提出双形态经验模式及持续维护机制,核心解决Agent记忆积累与退化问题。
MERMAID: Memory-Enhanced Retrieval and Reasoning with Multi-Agent Iterative Knowledge Grounding for Veracity Assessment
Yupeng Cao, Chengyang He, Yangyang Yu, Ping Wang, K. P. Subbalakshmi
9/10 2026-01-29 cs.CL PDF
在线内容的真实性评估日益重要。尽管大语言模型(LLMs)在自动事实核查和主张验证方面取得进展,现有方法通常将证据检索视为静态、孤立的步骤,难以跨主张有效管理或复用证据。本文提出MERMAID——一种记忆增强的多智能体真实性评估框架,通过将检索与推理过程紧密耦合,在Reason-Action式迭代流程中整合智能体驱动的搜索、结构化知识表示和持久记忆模块,实现动态证据获取与跨主张证据复用。实验证明,MERMAID在多个基准上达到最先进性能,同时提升检索效率,验证了融合检索、推理与记忆对可靠真实性评估的有效性。
Agent Memory 多智能体系统
论文核心提出带持久记忆模块的多智能体框架,显式建模证据记忆机制。
SONIC: Segmented Optimized Nexus for Information Compression in Key-Value Caching
Hong Chen, Xiang Liu, Bo Wang, Yuxuan Fan, Yuanlin Chu et al.
9/10 2026-01-29 cs.CL PDF
键值(KV)缓存的线性增长仍是多轮大语言模型部署的瓶颈。现有KV缓存压缩方法常忽视多轮对话的结构特性,依赖启发式剔除策略,易丢失关键上下文。本文提出SONIC——一种基于学习的框架,将历史对话片段压缩为紧凑且语义丰富的“枢纽”(Nexus)令牌。通过引入动态预算训练,SONIC可在无需重新训练的情况下灵活适应不同内存约束。实验表明,在80%和50%压缩率下,SONIC在四个多轮对话基准上均优于H2O和StreamingLLM等基线方法;在广泛使用的MTBench101基准上,平均得分较当前最优方法提升35.55%,有效维持了多轮对话连贯性,并将整体推理速度提升50.1%。
KV缓存压缩 多轮对话记忆
聚焦KV缓存压缩,直接优化Agent长期记忆机制。
Enhancing Conversational Agents via Task-Oriented Adversarial Memory Adaptation
Yimin Deng, Yuqing Fu, Derong Xu, Yejing Wang, Wei Ni et al.
9/10 2026-01-29 cs.CL PDF
对话智能体因上下文窗口限制难以处理长对话,现有记忆系统通常采用离线构建与更新、在线检索的流程。然而,其离线阶段固定且任务无关,导致记忆内容与下游任务需求不匹配。为此,本文提出对抗式记忆适应机制(AMA),通过模拟任务执行实现记忆构建与更新的任务对齐:挑战者智能体基于原始对话生成问答对,利用构建的记忆作答以模拟推理;评估者智能体分析回答错误;适配器智能体据此在策略与内容层面进行双重更新。该机制使记忆系统在离线阶段即获得任务感知监督信号,提升对下游任务的适应性。实验表明,AMA可集成至多种现有记忆系统,并在长对话基准LoCoMo上显著提升性能。
对话智能体 记忆系统 任务导向学习 对抗适应
论文聚焦于对话Agent中的记忆系统优化,提出任务导向的对抗式记忆适应机制,核心解决记忆构建与更新对下游任务的适配问题。
ScaleSim: Serving Large-Scale Multi-Agent Simulation with Invocation Distance-Based Memory Management
Zaifeng Pan, Yipeng Shen, Zhengding Hu, Zhuang Wang, Aninda Manocha et al.
9/10 2026-01-29 cs.AI PDF
基于大语言模型(LLM)的多智能体仿真在多个应用领域日益普及,但受限于GPU内存压力而难以扩展。每个智能体维护其私有的驻留GPU状态,包括模型、前缀缓存和适配器,随着智能体数量增长迅速耗尽设备内存。作者识别出此类工作负载的两个关键特性:稀疏激活与可估计的调用顺序,并据此提出“调用距离”这一统一抽象,用于预测智能体未来LLM请求的相对顺序。基于该抽象,论文设计了ScaleSim——一个面向大规模多智能体仿真的内存高效LLM服务系统,支持主动预取、优先级驱逐及模块化智能体内存管理,在仿真基准上相较SGLang最高提速1.74倍。
多智能体仿真 GPU内存管理
论文聚焦多智能体仿真中的GPU内存管理,提出基于调用距离的内存抽象与系统优化。
Beyond the Needle's Illusion: Decoupled Evaluation of Evidence Access and Use under Semantic Interference at 326M-Token Scale
Tianwei Lin, Zuyi Zhou, Xinda Zhao, Chenke Wang, Xiaohong Li et al.
9/10 2026-01-28 cs.CL PDF
长上下文大语言模型(LLM)智能体需从大规模环境中准确检索并忠实使用证据。然而,流行的“针在草堆”(NIAH)评估主要衡量良性的片段定位,其中“针”近乎唯一,“草堆”大多无关。本文提出EverMemBench-S(EMB-S),一个基于3.26亿词元MemoryBank的对抗性NIAH风格基准。为公平比较,仅在模型上下文窗口内(最高1M词元)评估原生长上下文模型。EMB-S通过人工筛选与LLM验证,为查询配对经碰撞测试的近似负样本及跨多文档的黄金证据集。作者还提出解耦诊断协议,分别报告证据访问(文档ID定位)与端到端问答质量,适用于原生提示与检索增强系统。实验表明,在语义干扰下,即使在NIAH上表现优异的系统,其证据访问能力也显著下降,揭示语义区分能力而非上下文长度才是大规模长上下文记忆的主要瓶颈。
长上下文记忆 语义干扰
聚焦长上下文Agent的记忆检索与语义干扰下的证据使用,核心评估记忆机制。
Me-Agent: A Personalized Mobile Agent with Two-Level User Habit Learning for Enhanced Interaction
Shuoxin Wang, Chang Liu, Gowen Loo, Lifan Zheng, Kaiwen Wei et al.
9/10 2026-01-28 cs.CL PDF
基于大语言模型(LLM)的移动智能体虽取得显著进展,但常忽视用户个性化需求,难以处理模糊指令、缺乏对交互历史的学习,且无法理解个性化指令。为此,本文提出Me-Agent——一种可学习、可记忆的个性化移动智能体。其采用两级用户习惯学习机制:在提示层面,引入结合个性化奖励模型的用户偏好学习策略;在记忆层面,设计分层偏好记忆结构,分别存储用户的长期记忆与应用特定记忆。为评估个性化能力,作者构建了包含大量日常模糊指令的新基准User FingerTip。实验表明,Me-Agent在个性化任务上达到最先进水平,同时保持优异的指令执行性能。
Agent Memory 个性化智能体
提出分层偏好记忆机制,核心聚焦于Agent Memory架构设计。
Toward Ultra-Long-Horizon Agentic Science: Cognitive Accumulation for Machine Learning Engineering
Xinyu Zhu, Yuzhu Cai, Zexi Liu, Bingyang Zheng, Cheng Wang et al.
9/10 2026-01-15 cs.AI PDF
当前人工智能向智能体科学的发展受限于超长周期自主性——即在持续数天或数周的实验周期中维持战略连贯性与迭代修正的能力。尽管大语言模型(LLMs)在短周期推理中表现优异,但在高维、延迟反馈的真实科研环境中易被执行细节淹没,难以将稀疏反馈整合为长期指导。本文提出ML-Master 2.0,一种掌握超长周期机器学习工程(MLE)的自主智能体。通过将上下文管理重构为认知积累过程,引入受计算机系统启发的分层认知缓存(HCC)架构,实现经验在时间维度上的结构化区分。HCC动态将瞬时执行轨迹提炼为稳定知识与跨任务智慧,使智能体解耦即时执行与长期实验策略,有效突破静态上下文窗口的扩展限制。在OpenAI MLE-Bench上24小时预算内,ML-Master 2.0达到56.44%的最先进奖牌率。
Agent Memory Long-horizon Autonomy
提出分层认知缓存机制,核心解决长期记忆与知识积累问题。
Digital Metabolism: Decoupling Logic from Facts via Regenerative Unlearning -- Towards a Pure Neural Logic Core
Mengmeng Peng, Zhenyu Fang, He Sun
9/10 2026-01-15 cs.LG PDF
当前大语言模型(LLMs)存在参数纠缠问题,即通用推理能力(逻辑)与具体事实知识(事实)在共享权重中处于叠加态,导致“记忆墙”现象,浪费计算资源并引发幻觉。本文提出“数字代谢”假说,认为定向遗忘是提炼纯神经逻辑核心的必要过程。为此,我们设计了再生性逻辑核心协议(RLCP),一种双流训练框架,通过深层梯度反转使特定事实依赖在线性层面不可解码。在Qwen2.5-0.5B上的实验显示,模型对目标事实的保留率趋近于零(准确率<7%),同时呈现出“结构结晶化”效应。GSM8K测试表明,该“代谢”模型自发采用思维链(CoT)推理,以补偿直接联想回忆的缺失(从O(1)回忆转向O(N)推理)。该研究为模块化“神经CPU+符号RAM”架构奠定基础。
Agent Memory Neural Logic Core
提出“数字代谢”机制,通过定向遗忘解耦逻辑与事实记忆,直接研究Agent Memory核心架构。
PersonalAlign: Hierarchical Implicit Intent Alignment for Personalized GUI Agent with Long-Term User-Centric Records
Yibo Lyu, Gongwei Chen, Rui Shao, Weili Guan, Liqiang Nie
9/10 2026-01-14 cs.AI PDF
尽管GUI智能体在显式和完成型指令下表现优异,但实际部署需对齐用户更复杂的隐式意图。本文提出“个性化GUI智能体的分层隐式意图对齐”(PersonalAlign)新任务,要求智能体利用长期用户记录作为持久上下文,解析模糊指令中省略的偏好,并基于用户状态预判潜在例行行为以提供主动协助。为此,我们构建了AndroidIntent基准,包含从2万条长期记录中标注的775项用户偏好与215个例行流程。同时,我们提出分层意图记忆智能体(HIM-Agent),持续更新个人记忆并分层组织偏好与例行行为以实现个性化。在AndroidIntent上的评估表明,HIM-Agent相较GPT-5、Qwen3-VL和UI-TARS等模型,在执行与主动性能上分别提升15.7%和7.3%。
Agent Memory Personalization
论文核心提出基于长期用户记录的分层意图记忆机制,明确构建个性化记忆系统。
Where Knowledge Collides: A Mechanistic Study of Intra-Memory Knowledge Conflict in Language Models
Minh Vu Pham, Hsuvas Borkakoty, Yufang Hou
9/10 2026-01-14 cs.CL PDF
在语言模型(LMs)中,当关于同一事件的不一致信息被编码到模型的参数化知识中时,会引发内部记忆知识冲突。以往工作主要通过微调或知识编辑等方法解决模型内部知识与外部资源之间的冲突,但对预训练阶段在模型内部表征中产生的冲突定位问题尚未探索。本文基于机制可解释性方法构建框架,识别预训练数据中的冲突知识在语言模型中的编码位置与方式。研究发现,模型特定内部组件负责编码预训练中的冲突知识,并展示了如何利用机制可解释性方法在推理阶段对冲突知识进行因果干预与控制。
机制可解释性 知识冲突
聚焦语言模型内部记忆中知识冲突的机制与定位,属核心记忆研究。
MineNPC-Task: Task Suite for Memory-Aware Minecraft Agents
Tamil Sudaravan Mohan Doss, Michael Xu, Sudha Rao, Andrew D. Wilson, Balasaravanan Thoravi Kumaravel
Tamil Sudaravan Mohan Doss (Microsoft) | Michael Xu (Microsoft ResearchUnited States) | Sudha Rao (Microsoft ResearchUnited States)
9/10 2026-01-08 cs.AI PDF
本文提出MineNPC-Task,一个由用户构建的基准与评估框架,用于在开放世界《我的世界》中测试具备记忆能力、支持混合主动性的大语言模型智能体。任务源自与专家玩家的协作游戏,经规范化为带显式前提条件与依赖结构的参数化模板,并配以机器可验证的校验器,遵循禁止利用外部知识的有限知识策略。该框架记录计划/行动/记忆事件(包括计划预览、定向澄清、记忆读写、前提检查与修复尝试),并基于游戏内证据统计子任务完成情况。初步实验使用GPT-4o,在8名资深玩家参与下评估了216个子任务,揭示了代码执行、物品/工具操作、引用与导航中的常见失败模式,以及依赖混合主动性澄清和轻量记忆的恢复机制。参与者对交互质量与界面可用性给予积极评价,同时指出跨任务记忆持久性的不足。作者开源完整任务套件、验证器、日志与评估框架,以支持未来具身记忆智能体的透明、可复现评估。
Agent Memory Embodied AI
论文聚焦于评估具有记忆能力的LLM智能体,明确设计记忆读写、持久性等机制。
Agentic Memory Enhanced Recursive Reasoning for Root Cause Localization in Microservices
Lingzhe Zhang, Tong Jia, Yunpeng Zhai, Leyi Pan, Chiming Duan et al.
Lingzhe Zhang (Peking UniversityBeijingChina) | Tong Jia∗ (Peking UniversityBeijingChina) | Yunpeng Zhai (Alibaba GroupChina)
9/10 2026-01-06 cs.SE PDF
随着微服务系统日益复杂,故障频发,准确的根因定位对保障系统可靠性至关重要。现有LLM方法常受限于浅层症状推理和缺乏跨告警复用,导致精度低、延迟高。本文通过调研多位站点可靠性工程师(SRE)的根因分析实践,提炼出递归性、多维扩展性和跨模态推理三大特征,并据此提出AMER-RCL框架。该框架结合递归推理引擎与智能体记忆(Agentic Memory),前者对每个告警进行递归细化候选根因,后者在时间窗口内累积并复用历史推理结果,减少冗余探索。实验表明,AMER-RCL在定位准确率和推理效率上均优于现有最先进方法。
Agent Memory Root Cause Localization
论文提出Agentic Memory机制,作为核心组件用于跨告警推理复用,显著提升效率与准确性。
Memory Bank Compression for Continual Adaptation of Large Language Models
Thomas Katraouras, Dimitrios Rafailidis
9/10 2026-01-02 cs.LG PDF
大语言模型(LLMs)在日常应用中广泛使用,但其知识易随数据演化而过时。持续学习旨在更新模型知识而不遗忘旧信息,但全量微调计算成本高且易导致灾难性遗忘。现有记忆增强方法通过外部记忆库存储信息,但在真实场景中面临记忆库无限增长的问题。本文提出MBC模型,通过码本优化策略在线压缩记忆库,并引入在线重置机制防止码本坍塌。同时,在LLM注意力层采用键值低秩适配(Key-Value LoRA),高效利用压缩后的记忆表示。实验表明,MBC在保持高保留准确率的同时,将记忆库规模压缩至最强基线的0.3%。
记忆压缩 持续学习
论文聚焦于LLM外部记忆库的压缩机制,直接研究Agent Memory核心问题。
Code
Interpersonal Memory Matters: A New Task for Proactive Dialogue Utilizing Conversational History
Bowen Wu, Wenqing Wang, Haoran Li, Ying Li, Jingsong Yu et al.
9/10 2025-03-07 cs.CL PDF
主动对话系统旨在使聊天机器人具备引导对话朝特定目标推进的能力,以提升用户参与度与服务自主性。现有系统通常仅关注预定义关键词或实体,忽视了对话历史中隐含的用户属性与偏好,难以建立长期用户亲密度。为此,本文提出将主动对话系统与长期记忆机制融合的统一框架,定义了名为“记忆感知主动对话”(MapDia)的新任务,并构建了首个中文记忆感知主动对话数据集(ChMapData)。此外,设计了一个基于检索增强生成(RAG)的联合框架,包含话题摘要、话题检索及主动话题转换检测与生成三个模块,以在适当时机引导对话回归相关历史话题。通过自动与人工评估验证了数据集与模型的有效性。
Agent Memory Proactive Dialogue
论文核心聚焦于将长期记忆融入主动对话系统,明确提出记忆感知任务。
Code
DeALOG: Decentralized Multi-Agents Log-Mediated Reasoning Framework
Abhijit Chakraborty, Ashish Raj Shekhar, Shiven Agarwal, Vivek Gupta
8/10 2026-02-01 cs.CL PDF
跨文本、表格和图像的复杂问答任务需要整合多样化的信息源,亟需一种支持专业化处理、协调性与可解释性的框架。本文提出DeALOG,一种用于多模态问答的去中心化多智能体框架。该框架包含表格、上下文、视觉、摘要与验证等专用智能体,通过共享的自然语言日志进行通信,该日志作为持久记忆载体。这种基于日志的方法在无中心控制的情况下实现协同错误检测与验证,提升系统鲁棒性。在FinQA、TAT-QA、CRT-QA、WikiTableQuestions、FeTaQA和MultiModalQA等多个基准上的评估表明其性能具有竞争力。分析证实共享日志、智能体专业化与验证机制对准确率至关重要。DeALOG通过模块化组件与自然语言通信提供了一种可扩展的解决方案。
多智能体系统 记忆机制
提出基于共享日志的持久记忆机制,是多智能体协作的核心组件。
MonoScale: Scaling Multi-Agent System with Monotonic Improvement
Shuai Shao, Yixiang Liu, Bingwei Lu, Weinan Zhang
8/10 2026-01-30 cs.MA PDF
近年来,基于大语言模型的多智能体系统(MAS)快速发展,通常利用路由器分解任务并分配给专用智能体。直接扩展智能体池易因路由器对新增异构、不可靠智能体的冷启动而导致性能崩溃。本文提出MonoScale,一种面向扩展的更新框架,主动生成少量智能体条件化熟悉任务,从成功与失败交互中收集证据,并将其提炼为可审计的自然语言记忆以指导后续路由。我们将顺序增强形式化为上下文赌博机问题,并采用信任区域记忆更新策略,确保在各轮次接入过程中性能单调非递减。在GAIA和Humanity's Last Exam上的实验表明,随着智能体池扩大,系统性能稳定提升,优于朴素扩展及固定池强路由器基线。
Agent Memory Multi-Agent Systems
提出可审计的自然语言记忆机制用于路由决策,是系统核心组件。
Do Not Waste Your Rollouts: Recycling Search Experience for Efficient Test-Time Scaling
Xinglin Wang, Jiayi Shi, Shaoxiong Feng, Peiwen Yuan, Yiwei Li et al.
8/10 2026-01-29 cs.CL PDF
测试时扩展通过分配额外的推理计算资源来增强大语言模型的推理能力,但现有搜索策略通常将推理轨迹视为一次性样本,导致宝贵的中间洞察被丢弃,造成大量计算冗余。为此,本文提出“回收搜索经验”(RSE),一种无需训练的自引导策略,将测试时搜索从孤立尝试转变为累积过程。RSE通过将原始推理轨迹提炼为共享经验库,正向复用中间结论以跳过冗余推导,负向复用失败模式以剪枝已知死胡同。理论分析证明了RSE在复杂推理任务中相较独立采样的效率优势;在HMMT24、HMMT25、IMO-Bench和HLE上的实验表明,RSE在相近计算成本下显著优于强基线,达到最先进的扩展效率。
Agent Memory Test-Time Scaling
提出经验复用机制,构建共享记忆库以避免重复推理,核心涉及Agent记忆机制。
RecNet: Self-Evolving Preference Propagation for Agentic Recommender Systems
Bingqian Li, Xiaolei Wang, Junyi Li, Weitao Li, Long Zhang et al.
Bingqian Li∗ (GSAI, Renmin University of ChinaBeijingChina) | Xiaolei Wang∗ (GSAI, Renmin University of ChinaBeijingChina) | Junyi Li (Department of Data Science, City University of Hong KongHong KongChina)
8/10 2026-01-29 cs.AI PDF
智能体推荐系统利用大语言模型(LLMs)建模复杂用户行为并支持个性化决策。然而,现有方法主要依赖稀疏、噪声大的显式用户-物品交互数据,难以捕捉用户与物品间的实时相互影响。为此,本文提出RecNet——一种自演化的偏好传播框架,主动在相关用户与物品间传播实时偏好更新。RecNet包含两个互补阶段:前向阶段通过中心化偏好路由机制,利用路由智能体整合并动态传播偏好至最相关智能体,并引入个性化偏好接收机制,结合消息缓冲区与可优化的规则记忆模块,基于过往经验与兴趣选择性吸收偏好;后向阶段则采用反馈驱动的传播优化机制,模拟多智能体强化学习框架,利用LLM进行信用分配、梯度分析与模块级优化,实现传播策略的持续自演化。大量实验验证了RecNet在建模推荐系统偏好传播中的有效性。
Agent Memory Preference Propagation
提出基于记忆机制的偏好传播框架,核心包含可优化的规则记忆模块。
Investigating Tool-Memory Conflicts in Tool-Augmented LLMs
Jiali Cheng, Rui Pan, Hadi Amiri
8/10 2026-01-14 cs.SE PDF
工具增强的大语言模型(LLMs)已推动众多应用发展,但可能面临知识冲突问题。本文提出一种新型知识冲突——工具-记忆冲突(Tool-Memory Conflict, TMC),即模型内部参数化知识与外部工具知识相互矛盾。研究发现,现有大语言模型在STEM相关任务中尤为容易受TMC影响。此外,不同条件下工具知识与参数化知识的优先级存在差异。作者评估了包括基于提示和RAG在内的现有冲突解决方法,结果表明这些方法均无法有效缓解工具-记忆冲突。
工具增强 知识冲突 参数化记忆 外部工具
聚焦工具知识与参数化记忆的冲突,属Agent Memory核心问题。
AgentOCR: Reimagining Agent History via Optical Self-Compression
Lang Feng, Fuchao Yang, Feng Chen, Xin Cheng, Haiyang Xu et al.
8/10 2026-01-08 cs.LG PDF
大型语言模型(LLM)的最新进展支持基于强化学习训练的多轮交互智能体系统,但其实际部署受限于不断增长的文本历史记录,导致令牌预算和内存消耗激增。本文提出AgentOCR框架,利用视觉令牌更高的信息密度,将累积的观察-动作历史压缩为紧凑的渲染图像。为实现可扩展的多轮推理,AgentOCR引入分段光学缓存机制,通过将历史分解为可哈希片段并维护视觉缓存,避免冗余重渲染。此外,该框架还提出智能体自压缩机制,使智能体能主动输出压缩率,并通过压缩感知奖励进行训练,以自适应平衡任务成功率与令牌效率。在ALFWorld和基于搜索的问答等挑战性基准上的实验表明,AgentOCR在保持超过95%文本智能体性能的同时,显著降低令牌消耗(>50%),并实现一致的令牌与内存效率提升。
Agent Memory Memory Compression
提出视觉化压缩历史记忆机制,直接优化Agent Memory效率。
Modality-Dependent Memory Mechanisms in Cross-Modal Neuromorphic Computing
Effiong Blessing, Chiung-Yi Tseng, Somshubhra Roy, Junaid Rehman, Isaac Nkrumah
8/10 2025-12-21 cs.LG PDF
增强记忆的脉冲神经网络(SNNs)有望实现高能效的神经形态计算,但其在不同感官模态间的泛化能力尚未探索。本文首次对SNN中的记忆机制开展全面的跨模态消融研究,评估Hopfield网络、分层门控循环网络(HGRN)和监督对比学习(SCL)在视觉(N-MNIST)与听觉(SHD)神经形态数据集上的性能。结果揭示显著的模态依赖性:Hopfield网络在视觉任务上达97.68%准确率,但在听觉任务仅76.15%;SCL则表现更均衡。研究证明记忆机制具有任务特异性而非普适性,并通过多模态联合训练验证了统一部署的有效性。定量记忆痕迹分析显示跨模态对齐较弱(相似度0.038),支持并行架构设计。该工作首次为神经形态系统中模态特异性记忆优化提供实证依据,能效比传统神经网络提升603倍。
神经形态计算 脉冲神经网络
聚焦记忆机制在神经形态计算中的跨模态表现,属核心记忆研究。
每页显示: