Memory Bank by lightsmile

LLM/Agent Memory 论文追踪报告 - 2026-02-03 13:41

337

论文总数

337

已分析

133

高相关

Memory核心

排序:

MemSkill：面向自演化智能体的记忆技能学习与演进

MemSkill: Learning and Evolving Memory Skills for Self-Evolving Agents

Haozhen Zhang, Quanyu Long, Jianzhu Bao, Tao Feng, Weizhi Zhang et al.

10/10 2026-02-02 cs.CL PDF

当前大多数大语言模型（LLM）智能体的记忆系统依赖少量静态、人工设计的操作来提取记忆，这些固定流程将人类先验硬编码为存储与更新规则，在多样交互模式下表现僵化，且难以处理长历史。为此，本文提出MemSkill，将记忆操作重构为可学习、可演化的记忆技能——即从交互轨迹中提取、整合与剪枝信息的结构化可复用例程。受智能体技能设计理念启发，MemSkill采用一个控制器学习选择相关技能，并由基于LLM的执行器生成技能引导的记忆。此外，系统引入一个设计师模块，周期性审查技能失效的困难案例，并通过提出改进或新技能来演化技能集。该闭环机制同时优化技能选择策略与技能本身。在LoCoMo、LongMemEval、HotpotQA和ALFWorld上的实验表明，MemSkill显著优于强基线并具有良好泛化能力。

LLM Agent Memory Skills Self-Evolving Memory Memory Management

论文核心聚焦于LLM Agent记忆机制的可学习与自演化架构。

Infinite-World：通过无姿态分层记忆将交互式世界模型扩展至千帧时域

Infinite-World: Scaling Interactive World Models to 1000-Frame Horizons via Pose-Free Hierarchical Memory

Ruiqi Wu, Xuanhua He, Meng Cheng, Tianyu Yang, Yong Zhang et al.

10/10 2026-02-02 cs.CV PDF

本文提出Infinite-World，一种能在复杂现实环境中维持超过1000帧连贯视觉记忆的鲁棒交互式世界模型。针对现有模型在真实视频中因姿态估计噪声和视角重访稀疏而难以训练的问题，作者引入分层无姿态记忆压缩器（HPMC），递归地将历史隐变量压缩为固定容量表示，并与生成主干联合优化，使模型能以有界计算成本锚定远期过去状态，无需显式几何先验。此外，提出不确定性感知动作标注模块，将连续运动离散化为三态逻辑，提升原始视频数据利用率并避免噪声轨迹污染动作空间。结合回访密集微调策略，在30分钟紧凑数据集上高效激活模型长程闭环能力。实验表明，该方法在视觉质量、动作可控性与空间一致性方面表现优越。

Agent Memory World Model

论文核心提出分层无姿态记忆压缩器，直接研究Agent长期视觉记忆机制。

Live-Evo：基于持续反馈的智能体记忆在线演化

Live-Evo: Online Evolution of Agentic Memory from Continuous Feedback

Yaolun Zhang, Yiran Wu, Yijiong Yu, Qingyun Wu, Huazheng Wang

10/10 2026-02-02 cs.AI PDF

大语言模型（LLM）智能体日益配备记忆机制，以存储经验并提供可复用的指导，从而提升任务求解性能。现有自演化系统多基于静态训练/测试划分，难以应对真实分布偏移和持续反馈场景。本文提出Live-Evo——一种在线自演化记忆系统，通过“经验库”与“元指导库”解耦“发生了什么”与“如何使用”，为每个任务动态生成适应性指导。系统根据反馈在线调整经验权重：有效经验被强化并频繁检索，误导或过时经验则被降权并逐渐遗忘，模拟人类记忆的强化与衰减机制。在为期10周的Prophet Arena在线基准上，Live-Evo将Brier评分提升20.8%，市场回报提高12.9%，并在深度研究任务中持续优于强基线。

在线学习记忆演化

论文核心聚焦于Agent Memory的在线演化机制，提出明确的双库架构与记忆更新策略。

超越RAG的智能体记忆：解耦与聚合式检索

Beyond RAG for Agent Memory: Retrieval by Decoupling and Aggregation

Zhanghao Hu, Qinglin Zhu, Hanqi Yan, Yulan He, Lin Gui

10/10 2026-02-02 cs.CL PDF

智能体记忆系统常采用标准的检索增强生成（RAG）流程，但其底层假设在此场景下并不适用。RAG面向大型异构语料库，而智能体记忆是有限、连贯且高度相关的对话流，常含重复片段。固定top-k相似性检索易返回冗余上下文，事后剪枝可能删除推理所需的时序前提。本文主张检索应超越相似匹配，转而操作潜在语义成分，遵循“解耦—聚合”范式：将记忆解耦为语义单元，组织成层次结构，并以此驱动检索。所提xMemory通过稀疏性—语义目标引导记忆的拆分与合并，构建忠实且可检索的高层节点结构。推理时采用自上而下策略，为多事实查询选择紧凑多样的主题与语义，仅在降低阅读器不确定性时才展开至具体事件或原始消息。在LoCoMo和PerLTQA上的实验表明，该方法在三大最新LLM上均显著提升回答质量与token效率。

Agent Memory Retrieval-Augmented Generation

论文聚焦Agent Memory机制，提出超越RAG的新架构。

ProcMEM：通过非参数化PPO从经验中学习可复用的程序性记忆以用于大语言模型智能体

ProcMEM: Learning Reusable Procedural Memory from Experience via Non-Parametric PPO for LLM Agents

Qirui Mi, Zhijian Ma, Mengyue Yang, Haoxuan Li, Yisen Wang et al.

10/10 2026-02-02 cs.AI PDF

大语言模型驱动的智能体在序列决策任务中表现优异，但常依赖即时推理，在重复场景中反复重新推导解决方案，导致计算冗余与执行不稳定。为解决此问题，本文提出ProcMEM框架，使智能体能在无需参数更新的情况下，从交互经验中自主学习程序性记忆。通过构建技能马尔可夫决策过程（Skill-MDP），ProcMEM将被动的情节叙述转化为具备激活、执行与终止条件的可执行技能。为确保可靠复用且不降低能力，引入非参数化PPO方法，利用语义梯度生成高质量候选技能，并通过PPO门控机制进行鲁棒验证。结合基于评分的记忆维护策略，ProcMEM维持紧凑而高质量的程序性记忆库。实验表明，该方法在域内、跨任务及跨智能体场景下均实现高复用率、显著性能提升与极致记忆压缩。

程序性记忆大语言模型智能体

论文核心聚焦于LLM Agent的程序性记忆机制构建与复用。

CoMeT：用于高效长上下文建模的协作记忆Transformer

CoMeT: Collaborative Memory Transformer for Efficient Long Context Modeling

Runsong Zhao, Shilei Liu, Jiwei Tang, Langming Liu, Haibin Chen et al.

10/10 2026-02-02 cs.LG PDF

标准Transformer的二次复杂度及不断增长的键值（KV）缓存严重阻碍了长上下文处理。为此，本文提出协作记忆Transformer（CoMeT），一种新型架构，使大语言模型能以恒定内存占用和线性时间复杂度处理任意长度序列。CoMeT作为即插即用模块，仅需少量微调即可集成至预训练模型。其采用双记忆系统：基于FIFO队列的临时记忆存储近期事件，带门控更新规则的全局记忆捕获长程依赖，并共同构成下一数据块的动态软提示。为支持超长上下文高效微调，作者还提出层间流水并行策略。实验表明，经32k上下文微调的CoMeT模型可在百万token序列中精准检索任意位置的密钥，在SCROLLS摘要任务上媲美全注意力基线，并在真实Agent与用户行为问答任务中验证了实用性。

长上下文建模记忆架构

论文核心提出协作记忆机制，直接解决Agent长期上下文记忆问题。

EverMemBench：大语言模型长期交互记忆评测基准

EverMemBench: Benchmarking Long-Term Interactive Memory in Large Language ModelsEverMemBench: Benchmarking Long-Term Interactive Memory in Large Language Models

Chuanrui Hu, Tong Li, Xingze Gao, Hongda Chen, Dannong Xu et al.

10/10 2026-02-01 cs.CL PDF

基于大语言模型的智能助手亟需长期对话记忆能力，但现有评测基准局限于双人单话题对话，难以反映真实场景的复杂性。本文提出EverMemBench，一个包含多方、多群组对话的评测基准，涵盖超百万token的对话内容，具备时序演化的信息、跨话题交织及角色特定人格特征。该基准通过1000余个问答对，从细粒度回忆、记忆意识和用户画像理解三个维度评估记忆系统。实验揭示了当前方法的关键局限：多跳推理在多方场景中失效；时序推理尚未解决，需超越时间戳匹配的版本语义；记忆意识受限于检索机制，现有基于相似性的方法难以弥合查询与隐含相关记忆间的语义鸿沟。EverMemBench为下一代记忆架构提供了具有挑战性的测试平台。

长期记忆评测基准

论文聚焦LLM长期交互记忆的评测，核心研究Agent Memory机制。

PersistBench：大语言模型应在何时遗忘长期记忆？

PersistBench: When Should Long-Term Memories Be Forgotten by LLMs?

Sidharth Pulipaka, Oliver Chen, Manas Sharma, Taaha S Bajwa, Vyas Raina et al.

10/10 2026-02-01 cs.AI PDF

对话助手正越来越多地将长期记忆与大语言模型（LLM）结合，以提升个性化体验（如记住用户为素食者）。然而，这种记忆持久性也可能带来被忽视的安全风险。为此，本文提出PersistBench基准，用于评估两类长期记忆特有风险：跨域泄露（LLM不当注入长期记忆上下文）和记忆诱导的谄媚行为（存储的记忆隐秘强化用户偏见）。作者在18个前沿及开源LLM上进行评测，发现模型在跨域样本上的中位失败率达53%，在谄媚样本上高达97%。该基准旨在推动更鲁棒、更安全的长期记忆机制在对话系统中的发展。

长期记忆安全风险

论文聚焦LLM长期记忆的安全风险，直接研究记忆机制的核心问题。

PolarMem：一种无需训练的极化潜在图记忆，用于可验证的多模态智能体

PolarMem: A Training-Free Polarized Latent Graph Memory for Verifiable Multimodal Agents

Zhisheng Chen, Tingyu Wu, Zijie Zhou, Zhengwei Xie, Ziyan Weng et al.

10/10 2026-01-31 cs.AI PDF

随着多模态智能体从被动观察者演变为长期决策者，其记忆系统不仅需提供信息可用性，还需支持逻辑可验证性。当前架构的根本局限在于概率性视觉-语言模型与稠密联想记忆中存在的认知不对称：它们将语义相似性与事实存在性混淆，且无法结构化地编码否定约束。为此，本文提出PolarMem——一种无需训练的极化潜在图记忆系统，通过非参数分布划分将模糊感知似然转化为离散逻辑约束，并采用具有正交抑制连接的极化图拓扑，显式将已验证的否定作为基本认知状态进行存储。推理阶段采用逻辑主导的检索范式，抑制违反否定约束的幻觉模式。在八个冻结视觉-语言模型和六个基准上的广泛实验表明，PolarMem可作为稳健的认知系统，为可验证多模态智能体奠定基础。

Agent Memory Multimodal Agents

论文提出新型记忆系统PolarMem，核心聚焦可验证的Agent记忆机制。

Mem-T：面向长视野记忆智能体的奖励稠密化方法

Mem-T: Densifying Rewards for Long-Horizon Memory Agents

Yanwei Yue, Guibin Zhang, Boci Peng, Xuanbo Fan, Jiaxin Guo et al.

10/10 2026-01-30 cs.LG PDF

记忆智能体通过内生方式管理记忆的处理、存储与检索，展现出高度的自主性与适应性。然而，现有训练范式受限于稀疏且延迟的奖励信号，难以实现端到端的记忆管理策略优化。为此，本文提出Mem-T——一种可与轻量级分层记忆数据库交互的自主记忆智能体，支持对流式输入进行动态更新与多轮检索。为有效训练其长视野记忆管理能力，进一步提出MoT-GRPO框架，该树引导强化学习方法通过记忆操作树反向传播与事后信用分配，将稀疏终端反馈转化为稠密的逐步监督信号，联合优化记忆构建与检索。实验表明，Mem-T在性能上超越A-Mem和Mem0达14.92%，同时在准确率-效率帕累托前沿上表现优异，相较GAM减少约24.45%的推理token消耗而不损失性能。

记忆智能体强化学习

论文聚焦于自主记忆智能体的记忆管理机制与训练方法，核心研究Agent Memory。

达尔文式记忆：一种无需训练的自调节记忆系统用于GUI智能体演化

Darwinian Memory: A Training-Free Self-Regulating Memory System for GUI Agent Evolution

Hongze Mi, Yibo Feng, WenJie Lu, Song Cao, Jinyuan Li et al.

10/10 2026-01-30 cs.AI PDF

多模态大语言模型（MLLM）智能体在图形用户界面（GUI）自动化中面临长周期、跨应用任务的挑战，主要受限于上下文窗口。现有记忆系统难以适应动态GUI环境，存在高层意图与底层执行间的粒度不匹配及上下文污染问题。为此，本文提出达尔文式记忆系统（DMS），将记忆构建为遵循“适者生存”法则的动态生态系统。DMS将复杂轨迹分解为独立可复用单元，并通过效用驱动的自然选择机制追踪记忆单元的生存价值，主动剪枝次优路径并抑制高风险计划。在真实多应用基准上的实验表明，DMS无需训练成本或架构改动即可显著提升通用MLLM性能，平均成功率提高18.0%，执行稳定性提升33.9%，同时降低任务延迟。

Agent Memory GUI Automation

论文提出新型自进化记忆系统DMS，核心聚焦Agent Memory机制。

E-mem：基于多智能体的情节上下文重构用于大语言模型智能体记忆

E-mem: Multi-agent based Episodic Context Reconstruction for LLM Agent Memory

Kaixiang Wang, Yidan Lin, Jiong Lou, Zhaojiacheng Zhou, Bunyod Suvonov et al.

10/10 2026-01-29 cs.AI PDF

随着大语言模型（LLM）智能体向系统2推理演进，其需在长时间跨度内维持严谨的逻辑完整性。然而，现有记忆预处理范式常因破坏性去上下文化而损害深层推理所需的上下文完整性。为此，本文提出E-mem框架，将范式从记忆预处理转向情节上下文重构。受生物记忆印迹（engrams）启发，E-mem采用异构分层架构：多个辅助智能体维护未压缩的记忆上下文，主控智能体负责全局规划。该机制使辅助智能体能在激活片段内进行局部推理，提取上下文感知证据后再聚合。在LoCoMo基准上的评估表明，E-mem的F1得分超过54%，较当前最优方法GAM提升7.75%，同时降低70%以上的token开销。

LLM Agent Memory Episodic Memory Multi-agent System Context Preservation

论文标题与内容均聚焦于LLM Agent记忆机制，提出新型记忆架构E-mem。

ShardMemo：面向分片化智能体大语言模型记忆的掩码混合专家路由机制

ShardMemo: Masked MoE Routing for Sharded Agentic LLM Memory

Yang Zhao, Chengxiao Dai, Yue Xiu, Mengying Kou, Yuliang Zheng et al.

10/10 2026-01-29 cs.AI PDF

智能体大语言模型（LLM）系统依赖外部记忆以支持长时程状态维护与多智能体并发执行，但随着记忆规模和并行访问量增长，集中式索引与启发式分区成为性能瓶颈。本文提出ShardMemo——一种预算受限的分层记忆服务，包含A层（每智能体工作状态）、B层（带本地近似最近邻索引的分片证据）和C层（版本化技能库）。B层采用“作用域优先路由”策略，通过结构化资格约束在路由或ANN搜索前屏蔽无效分片，并将分片探测建模为对合格分片的掩码混合专家（MoE）路由，支持Top-B或自适应Top-P采样。路由器基于证据到分片的监督信号训练。实验表明，ShardMemo在LoCoMo上显著优于最强基线，在固定预算下提升F1分数并降低检索开销与延迟。

Agent Memory Memory Sharding

论文标题与内容均聚焦于LLM Agent的分层外部记忆系统设计，核心解决记忆扩展与路由问题。

MemOCR：面向高效长程推理的布局感知视觉记忆

MemOCR: Layout-Aware Visual Memory for Efficient Long-Horizon Reasoning

Yaorui Shi, Shugui Liu, Yu Yang, Wenyu Mao, Yuxin Chen et al.

10/10 2026-01-29 cs.AI PDF

长程智能体推理需将不断增长的交互历史有效压缩至有限上下文窗口中。现有记忆系统多将历史序列化为文本，其token级开销均匀且随长度线性增长，常将稀缺预算浪费于低价值细节。为此，本文提出MemOCR——一种多模态记忆智能体，通过视觉布局实现自适应信息密度分配，在严格上下文预算下提升长程推理能力。MemOCR维护结构化富文本记忆（如标题、高亮），并将其渲染为图像供智能体查阅，视觉上突出关键证据，同时大幅压缩辅助细节。为确保在不同记忆预算下的鲁棒性，采用强化学习在预算感知目标下训练模型，使其适应多样压缩水平。在长上下文多跳与单跳问答基准上，MemOCR优于强文本基线，并在极端预算下实现更高效的上下文利用。

视觉记忆上下文压缩

论文提出MemOCR，核心聚焦于Agent Memory的视觉化压缩与布局感知机制。

AMA：基于多智能体协作的自适应记忆

AMA: Adaptive Memory via Multi-Agent Collaboration

Weiquan Huang, Zixuan Wang, Hehai Lin, Sudong Wang, Bo Xu et al.

10/10 2026-01-28 cs.AI PDF

大语言模型（LLM）智能体的快速发展对支持长期交互与复杂推理的鲁棒记忆系统提出了迫切需求。现有方法通常采用僵化的检索粒度、冗余的信息累积策略和粗粒度的更新机制，导致存储内容与任务推理需求不匹配，并随时间积累逻辑不一致。为此，本文提出基于多智能体协作的自适应记忆框架（AMA），通过协调多个智能体实现多粒度记忆管理。AMA采用分层记忆结构，动态匹配检索粒度与任务复杂度：Constructor与Retriever协同构建多粒度记忆并自适应路由查询；Judge验证检索内容的相关性与一致性，必要时触发迭代检索或调用Refresher；Refresher则通过定向更新或删除过时条目维护记忆一致性。在长上下文基准上的实验表明，AMA显著优于当前最优方法，且相比全上下文方法减少约80%的token消耗。

LLM Agent Memory System

论文核心聚焦于LLM Agent记忆机制的设计与优化，标题明确包含memory。

MemCtrl：利用多模态大语言模型作为具身智能体的主动记忆控制器

MemCtrl: Using MLLMs as Active Memory Controllers on Embodied Agents

Vishnu Sashank Dorbala, Dinesh Manocha

10/10 2026-01-28 cs.AI PDF

基础模型依赖上下文学习进行个性化决策，但受限于上下文窗口大小，需借助如RAG等记忆压缩与检索系统。然而，现有系统常将记忆视为离线大容量存储，不适用于资源受限的在线具身智能体。本文提出MemCtrl，一种利用多模态大语言模型（MLLMs）在线剪枝记忆的新框架。该框架引入可训练的记忆头μ，作为门控机制，在探索过程中动态决定保留、更新或丢弃哪些观察或反思。实验通过离线专家和在线强化学习两种方式训练μ，在EmbodiedBench多个子集上显著提升任务完成能力，平均提升约16%，部分指令子集提升超20%。定性分析表明，μ增强的MLLM在处理长且复杂指令时表现更优。

Agent Memory 多模态大语言模型

论文核心提出MemCtrl框架，直接研究Agent在线记忆控制机制。

BMAM：脑启发的多智能体记忆框架

BMAM: Brain-inspired Multi-Agent Memory Framework

Yang Li, Jiaxiang Liu, Yusong Wang, Yujie Wu, Mingkun Xu

10/10 2026-01-28 cs.CL PDF

基于语言模型的智能体在长期交互中面临时序信息保持与跨会话行为一致性的挑战，作者称之为“灵魂侵蚀”。本文提出BMAM（脑启发的多智能体记忆框架），一种通用记忆架构，将智能体记忆建模为多个功能特化的子系统，而非单一非结构化存储。受认知记忆系统启发，BMAM将记忆分解为情景记忆、语义记忆、显著性感知记忆和控制导向记忆，各子系统在互补的时间尺度上运作。为支持长时程推理，BMAM沿显式时间线组织情景记忆，并通过融合多种互补信号进行检索。在LoCoMo基准上的实验表明，BMAM在标准长时程评估设置下达到78.45%的准确率，消融分析证实受海马体启发的情景记忆子系统对时序推理至关重要。

情景记忆多智能体系统

论文核心提出脑启发的多智能体记忆架构BMAM，明确聚焦Agent Memory机制。

基于上下文意图的智能体记忆锚定

Grounding Agent Memory in Contextual Intent

Ruozhen Yang, Yucheng Jiang, Yueqi Jiang, Priyanka Kargupta, Yunyi Zhang et al.

10/10 2026-01-15 cs.CL PDF

在长周期、目标导向的交互中部署大语言模型仍具挑战，因相同实体和事实在不同潜在目标与约束下反复出现，导致记忆系统检索到上下文不匹配的证据。本文提出STITCH（上下文历史中的结构化意图追踪），一种智能体记忆系统，通过结构化检索线索——上下文意图（包括当前潜在目标、动作类型和关键实体类型）对轨迹每一步进行索引，并依据当前步骤意图匹配历史记忆。推理时，STITCH按意图兼容性筛选并优先排序记忆片段，抑制语义相似但上下文不兼容的历史信息。在新构建的CAME-Bench及LongMemEval基准上，STITCH取得SOTA性能，较最强基线提升35.6%，且随轨迹长度增加优势更显著。

Agent Memory 上下文意图记忆检索长周期推理

论文核心提出新型Agent Memory系统STITCH，聚焦记忆检索与上下文意图对齐。

面向长周期LLM智能体的连续记忆架构

Continuum Memory Architectures for Long-Horizon LLM Agents

Joe Logan

10/10 2026-01-14 cs.AI PDF

检索增强生成（RAG）已成为为大语言模型（LLM）智能体提供上下文知识的默认策略，但其将记忆视为无状态的查找表：信息无限期保留、检索为只读且缺乏时间连续性。本文提出“连续记忆架构”（CMA），一类通过持久存储、选择性保留、关联路由、时间链式连接及向高阶抽象整合来维护并更新交互间内部状态的系统。作者未披露具体实现，而是阐明CMA的架构要求，并在知识更新、时间关联、关联回忆与上下文消歧等任务中验证其相较于RAG在累积、变异与消歧记忆方面的结构性优势，证明CMA是长周期智能体的必要架构原语，同时指出延迟、漂移与可解释性等开放挑战。

Agent Memory Long-Horizon Agents

论文提出连续记忆架构CMA，核心聚焦LLM Agent记忆机制设计。

A³-Bench：通过锚点与吸引子激活对记忆驱动的科学推理进行基准测试

$A^3$-Bench: Benchmarking Memory-Driven Scientific Reasoning via Anchor and Attractor Activation

Jian Zhang, Yu He, Zhiyuan Wang, Zhangqi Wang, Kai He et al.

10/10 2026-01-14 cs.AI PDF

科学推理不仅依赖逻辑推断，还需激活先验知识与经验结构。记忆可高效复用知识，提升推理的一致性与稳定性。然而，现有基准主要评估最终答案或逐步连贯性，忽视了人类推理中基于锚点（anchor）与吸引子（attractor）激活并整合至多步推理的记忆驱动机制。为此，本文提出A³-Bench基准，通过双尺度记忆驱动激活评估科学推理能力。首先，采用SAPM流程（主题、锚点与吸引子、问题、记忆发展）标注2,198个跨领域科学推理问题；其次，构建基于锚点与吸引子的双尺度记忆评估框架，并引入AAUI（锚点-吸引子利用率指数）度量记忆激活率；最后，通过多种基础模型与范式的实验验证该基准，并分析记忆激活对推理性能的影响，为记忆驱动的科学推理提供新见解。

Agent Memory Scientific Reasoning

论文聚焦记忆驱动的科学推理机制，明确构建基于锚点与吸引子的记忆激活评估框架。

Code

人工智能海马体：我们距离人类记忆还有多远？

The AI Hippocampus: How Far are We From Human Memory?

Zixia Jia, Jiaqi Li, Yipeng Kang, Yuxuan Wang, Tong Wu et al.

10/10 2026-01-14 cs.AI PDF

记忆在增强现代大语言模型（LLM）及多模态大语言模型（MLLM）的推理能力、适应性与上下文保真度方面起着基础性作用。随着模型从静态预测器向支持持续学习与个性化推理的交互系统演进，记忆机制已成为其架构与功能发展的核心主题。本文对LLM与MLLM中的记忆研究进行了系统性综述，提出包含隐式、显式与智能体记忆三大范式的统一分类体系。隐式记忆指预训练Transformer参数中嵌入的知识；显式记忆利用外部存储实现可查询的动态知识表示；智能体记忆则支持自主智能体的长期规划与多智能体协作。文章还探讨了多模态场景下的记忆整合，并分析了关键架构进展、基准任务及开放挑战。

Agent Memory Large Language Models

论文系统综述LLM与多模态Agent中的记忆机制，明确聚焦记忆架构。

记忆更为关键：以事件为中心的记忆作为智能体搜索与推理的逻辑图谱

Memory Matters More: Event-Centric Memory as a Logic Map for Agent Searching and Reasoning

Yuyang Hu, Jiongnan Liu, Jiejun Tan, Yutao Zhu, Zhicheng Dou

Jiongnan Liu (GSAI, Renmin University of China) | Jiejun Tan (Renmin University of China)

10/10 2026-01-08 cs.AI PDF

大语言模型（LLMs）正越来越多地被部署为能在环境中推理、规划和交互的智能体。为有效应对长周期任务，此类智能体亟需一种能保留、组织并检索过往经验以支持下游决策的记忆机制。然而，现有方法多以扁平方式组织记忆，并依赖简单的相似性检索；即便引入结构化记忆，也难以显式捕捉经验单元间的逻辑关系，且记忆访问仍脱离结构、依赖浅层语义检索，阻碍了长程逻辑推理。本文提出受事件分割理论启发的事件中心记忆框架CompassMem，通过将经验增量划分为事件并以显式逻辑关系连接，构建事件图作为逻辑图谱，使智能体能超越表层检索，进行结构化、目标导向的记忆导航，逐步聚合关键记忆以支持长程推理。在LoCoMo和NarrativeQA上的实验表明，CompassMem在多种主干模型上均显著提升检索与推理性能。

事件中心记忆逻辑图谱

论文核心提出事件中心的记忆框架CompassMem，直接聚焦Agent Memory机制。

超越静态摘要：面向大语言模型智能体的主动记忆提取

Beyond Static Summarization: Proactive Memory Extraction for LLM Agents

Chengyuan Yang, Zequn Sun, Wei Wei, Wei Hu

10/10 2026-01-08 cs.CL PDF

记忆管理对大语言模型（LLM）智能体实现长期交互与个性化至关重要。现有研究多关注记忆摘要的组织与使用，却忽视了初始记忆提取阶段。本文基于递归加工理论指出，当前基于摘要的方法存在两大局限：一是摘要为“提前进行”的盲目前馈过程，因无法预知未来任务而遗漏关键细节；二是提取通常为“一次性”操作，缺乏事实验证的反馈机制，导致信息损失累积。为此，我们提出主动记忆提取方法（ProMem），将提取视为迭代认知过程，通过自问自答机制构建递归反馈回路，主动探查对话历史以恢复缺失信息并修正错误。实验表明，ProMem显著提升了记忆提取的完整性与问答准确率，并在提取质量与token开销之间实现了更优权衡。

LLM Agent Memory Extraction

论文聚焦LLM Agent记忆提取机制，提出ProMem框架，属核心记忆研究。

由内而外：面向长期个性化对话系统的用户中心化核心记忆树演化方法

Inside Out: Evolving User-Centric Core Memory Trees for Long-Term Personalized Dialogue Systems

Jihao Zhao, Ding Chen, Zhaoxin Fan, Kerun Xu, Mengting Hu et al.

10/10 2026-01-08 cs.CL PDF

现有长期个性化对话系统难以在无限交互流与有限上下文约束之间取得平衡，常导致记忆噪声累积、推理能力退化及角色不一致。本文提出Inside Out框架，利用全局维护的PersonaTree作为长期用户画像载体：通过初始模式约束主干，并动态更新分支与叶节点，实现可控增长，在压缩记忆的同时保持一致性。此外，通过基于过程奖励的强化学习训练轻量级MemListener模型，生成结构化、可执行且可解释的{ADD, UPDATE, DELETE, NO_OP}操作，支持个性化记忆树的动态演化。响应生成时，PersonaTree可直接用于低延迟场景；当需更多细节时，则触发智能体模式按需引入受控细节。实验表明，PersonaTree在抑制上下文噪声和维持角色一致性方面优于全文拼接及其他个性化记忆系统，且小型MemListener在记忆操作决策上性能媲美甚至超越DeepSeek-R1-0528和Gemini-3-Pro等强大推理模型。

核心记忆架构个性化对话系统

论文提出PersonaTree核心记忆架构，直接解决Agent长期记忆建模问题。

可控记忆使用：在长期人机交互中平衡锚定与创新

Controllable Memory Usage: Balancing Anchoring and Innovation in Long-Term Human-Agent Interaction

Muzhao Tian, Zisu Huang, Xiaohua Wang, Jingwen Xu, Zhengkang Guo et al.

10/10 2026-01-08 cs.AI PDF

随着基于大语言模型的智能体越来越多地应用于长期交互场景，累积记忆对于实现个性化和保持风格一致性至关重要。然而，现有系统多采用“全有或全无”的记忆使用方式：纳入所有相关历史信息易导致“记忆锚定”，使智能体受困于过往交互；而完全排除记忆则造成重要交互历史的丢失。本文提出可建模并由用户显式控制的记忆依赖维度，首先引入衡量记忆依赖程度的行为指标，进而提出可调控记忆智能体（SteeM）框架，允许用户动态调节记忆依赖程度，从鼓励创新的“全新开始”模式到高度忠实于交互历史的“高保真”模式。多场景实验表明，该方法显著优于传统提示和固定记忆屏蔽策略，为个性化人机协作提供了更精细有效的控制手段。

可控记忆记忆锚定长期交互个性化智能体

论文聚焦于LLM Agent中记忆使用的可控性，提出核心记忆调控机制。

Membox：将话题连续性融入大语言模型智能体的长程记忆

Membox: Weaving Topic Continuity into Long-Range Memory for LLM Agents

Dehao Tao, Guoliang Ma, Yongfeng Huang, Minghu Jiang

10/10 2026-01-07 cs.CL PDF

人机对话常表现出话题连续性——即在时间相邻的交互中演化的稳定主题框架，但现有大语言模型（LLM）智能体记忆系统难以保留这一特性。当前方法多采用“碎片化-补偿”范式：先将对话流拆分为孤立语句存储，再通过嵌入检索恢复连贯性，此过程不可逆地破坏叙事与因果流，并偏向词汇相似性。本文提出Membox，一种以“话题织机”（Topic Loom）为核心的分层记忆架构，通过滑动窗口持续监测对话，将连续同主题轮次在存储时聚合成连贯的“记忆盒”；随后由“轨迹编织器”（Trace Weaver）将封存的记忆盒链接为长程事件时间线，恢复跨间断的宏观话题重现。在LoCoMo数据集上的实验表明，Membox在时序推理任务中F1最高提升68%，优于Mem0、A-MEM等基线，且仅使用现有方法一小部分上下文token，显著兼顾效率与效果。

LLM Agent Memory 话题连续性

论文提出Membox架构，核心解决LLM Agent中话题连续性的长期记忆建模问题。

Mem-Gallery：面向MLLM智能体的多模态长期对话记忆评测基准

Mem-Gallery: Benchmarking Multimodal Long-Term Conversational Memory for MLLM Agents

Yuanchen Bei, Tianxin Wei, Xuying Ning, Yanjun Zhao, Zhining Liu et al.

10/10 2026-01-07 cs.CL PDF

长期记忆是多模态大语言模型（MLLM）智能体的关键能力，尤其在信息随时间累积和演化的对话场景中。然而，现有评测基准要么仅评估纯文本多轮对话中的记忆能力，要么在局部上下文中考察多模态理解，无法有效衡量多模态记忆在长期对话轨迹中的保存、组织与演化。为此，本文提出Mem-Gallery——一个用于评估MLLM智能体多模态长期对话记忆的新基准。该基准包含基于视觉与文本信息的高质量多轮对话，具有长交互周期和丰富的多模态依赖关系。在此基础上，作者构建了一个系统性评估框架，从记忆提取与测试时适应、记忆推理、记忆知识管理三个功能维度评估关键记忆能力。对十三种记忆系统的广泛评测揭示了当前模型在显式多模态信息保留与组织方面的必要性、记忆推理与知识管理的持续局限，以及效率瓶颈。

多模态记忆长期对话记忆

论文聚焦多模态大语言模型智能体的长期对话记忆机制，提出专门评测基准。

SYNAPSE：通过扩散激活机制赋予大语言模型智能体情景-语义记忆能力

SYNAPSE: Empowering LLM Agents with Episodic-Semantic Memory via Spreading Activation

Hanqi Jiang, Junhao Chen, Yi Pan, Ling Chen, Weihang You et al.

10/10 2026-01-06 cs.CL PDF

尽管大语言模型（LLMs）在通用推理方面表现出色，但现有检索增强方法难以应对智能体长期记忆的碎片化问题。为此，本文提出Synapse（协同联想处理语义编码），一种超越静态向量相似性的统一记忆架构。受认知科学启发，Synapse将记忆建模为动态图结构，其相关性通过扩散激活机制而非预计算链接生成。系统结合侧向抑制与时间衰减机制，动态突出相关子图并抑制干扰信息。我们设计了一种三重混合检索策略，融合几何嵌入与基于激活的图遍历。在LoCoMo基准上的综合评估表明，Synapse在复杂时序与多跳推理任务中显著优于当前最先进方法，有效缓解“上下文隧道”问题。代码与数据将在论文录用后公开。

情景-语义记忆扩散激活

论文提出基于认知科学的动态图记忆架构，核心解决Agent长期记忆问题。

MAGMA：一种基于多图的智能体记忆架构

MAGMA: A Multi-Graph based Agentic Memory Architecture for AI Agents

Dongming Jiang, Yi Li, Guanpeng Li, Bingzhe Li

10/10 2026-01-06 cs.AI PDF

记忆增强生成（MAG）通过外部记忆扩展大语言模型以支持长上下文推理，但现有方法主要依赖单一记忆库中的语义相似性，将时间、因果和实体信息混杂在一起，限制了可解释性及查询意图与检索证据的一致性，导致推理准确性不足。本文提出MAGMA——一种多图智能体记忆架构，将每个记忆项在正交的语义、时间、因果和实体图中分别表示，并将检索建模为在这些关系视图上的策略引导遍历，实现查询自适应的记忆选择与结构化上下文构建。通过解耦记忆表示与检索逻辑，MAGMA提供透明的推理路径和细粒度的检索控制。在LoCoMo和LongMemEval上的实验表明，MAGMA在长周期推理任务中持续优于当前最先进的智能体记忆系统。

Agent Memory Memory Architecture

论文提出多图结构的Agent记忆架构，核心聚焦记忆表示与检索机制。

MemRL：通过情景记忆上的运行时强化学习实现自进化智能体

MemRL: Self-Evolving Agents via Runtime Reinforcement Learning on Episodic Memory

Shengtao Zhang, Jiaqian Wang, Ruiwen Zhou, Junwei Liao, Yuchen Feng et al.

Ruiwen Zhou (National University of Singapore)

10/10 2026-01-06 cs.CL PDF

人类智能的核心在于通过建构性情景模拟——调用过往经验以合成新任务的解决方案——掌握新技能。尽管大语言模型具备强大推理能力，却难以实现此类自进化：微调计算成本高且易灾难性遗忘，现有基于记忆的方法依赖被动语义匹配，常检索到噪声信息。为此，本文提出MemRL框架，使智能体能在情景记忆上进行非参数化强化学习以实现自进化。MemRL明确分离冻结LLM的稳定推理能力与可塑、演化的记忆模块，并采用两阶段检索机制：先按语义相关性筛选候选记忆，再基于学习到的Q值（效用）进行选择。这些效用值通过环境反馈以试错方式持续优化，使智能体能从相似噪声中识别高价值策略。在HLE、BigCodeBench、ALFWorld和Lifelong Agent Bench上的实验表明，MemRL显著优于当前最先进基线。分析实验证实其有效调和了稳定性-可塑性困境，实现无需权重更新的持续运行时改进。

情景记忆强化学习

论文核心提出基于情景记忆的强化学习框架MemRL，直接聚焦Agent Memory机制。

SimpleMem：面向大语言模型智能体的高效终身记忆系统

SimpleMem: Efficient Lifelong Memory for LLM Agents

Jiaqi Liu, Yaofeng Su, Peng Xia, Siwei Han, Zeyu Zheng et al.

Peng Xia (UNC-Chapel Hill)

10/10 2026-01-05 cs.AI PDF

为支持大语言模型（LLM）智能体在复杂环境中进行可靠的长期交互，需构建能高效管理历史经验的记忆系统。现有方法或通过被动扩展上下文保留完整交互历史，导致严重冗余；或依赖迭代推理过滤噪声，带来高昂的token开销。为此，本文提出SimpleMem——一种基于语义无损压缩的高效记忆框架，包含三个阶段：(1) 语义结构化压缩，利用熵感知过滤将非结构化交互提炼为紧凑、多视角索引的记忆单元；(2) 递归记忆整合，异步地将相关单元融合为更高层抽象表示以减少冗余；(3) 自适应查询感知检索，根据查询复杂度动态调整检索范围，高效构建精准上下文。实验表明，该方法在准确率、检索效率和推理成本方面均显著优于基线，F1平均提升26.4%，推理token消耗最多降低30倍。

LLM Agent Memory System

论文聚焦LLM Agent的终身记忆机制，提出高效记忆系统SimpleMem。

Code

智能体记忆：面向大语言模型智能体的统一长短期记忆管理学习框架

Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents

Yi Yu, Liuyi Yao, Yuexiang Xie, Qingquan Tan, Jiaqi Feng et al.

10/10 2026-01-05 cs.CL PDF

大语言模型（LLM）智能体因上下文窗口有限，在长时程推理中面临根本性限制，高效记忆管理至关重要。现有方法通常将长期记忆（LTM）与短期记忆（STM）作为独立组件处理，依赖启发式规则或辅助控制器，限制了适应性与端到端优化。本文提出Agentic Memory（AgeMem），一种将LTM与STM管理直接融入智能体策略的统一框架。AgeMem将记忆操作建模为基于工具的动作，使LLM智能体能自主决定何时及如何存储、检索、更新、摘要或丢弃信息。为训练此类统一行为，作者设计了三阶段渐进式强化学习策略，并提出逐步GRPO算法以应对记忆操作带来的稀疏与不连续奖励。在五个长时程基准上的实验表明，AgeMem在多种LLM主干上均显著优于强基线，提升了任务性能、长期记忆质量及上下文使用效率。

LLM Agent Memory Management

论文标题与内容均聚焦于LLM Agent的统一长短期记忆管理机制。

EverMemOS：面向结构化长程推理的自组织记忆操作系统

EverMemOS: A Self-Organizing Memory Operating System for Structured Long-Horizon Reasoning

Chuanrui Hu, Xingze Gao, Zuyi Zhou, Dannong Xu, Yi Bai et al.

10/10 2026-01-05 cs.AI PDF

大型语言模型（LLMs）日益被部署为长期交互式智能体，但其有限的上下文窗口难以维持长时间交互中的一致行为。现有记忆系统通常存储孤立记录并检索片段，难以整合动态演化的用户状态与解决冲突。本文提出EverMemOS——一种受记忆印迹（engram）启发的自组织记忆操作系统。其包含三个核心阶段：情景痕迹形成将对话流转化为包含情景痕迹、原子事实和时限性前瞻信号的MemCells；语义巩固将MemCells组织为主题性MemScenes，提炼稳定语义结构并更新用户画像；重构式回忆基于MemScene引导智能体检索，组合下游推理所需的充分必要上下文。在LoCoMo和LongMemEval上的实验表明，EverMemOS在记忆增强推理任务中达到最先进性能，并通过PersonaMem v2画像研究与案例分析展示了其在用户建模与前瞻能力方面的优势。

Agent Memory Memory Operating System

论文提出专用于LLM Agent的自组织记忆操作系统，核心聚焦记忆机制。

Code

基于超图记忆的多步RAG改进方法用于长上下文复杂关系建模

Improving Multi-step RAG with Hypergraph-based Memory for Long-Context Complex Relational Modeling

Chulun Zhou, Chunkang Zhang, Guoxin Yu, Fandong Meng, Jie Zhou et al.

10/10 2025-12-30 cs.CL PDF

多步检索增强生成（RAG）广泛用于提升大语言模型在需全局理解与深度推理任务中的表现。现有RAG系统虽引入工作记忆模块整合检索信息，但其记忆设计多为被动存储，仅累积孤立事实，忽视高阶关联，导致推理碎片化与全局理解能力弱。本文提出HGMem——一种基于超图的记忆机制，将记忆从静态存储拓展为支持复杂推理的动态表达结构。该机制以超图表示记忆，超边对应记忆单元，逐步构建高阶交互，围绕核心问题融合事实与思考，形成情境化知识结构，为后续推理提供强命题支持。在多个全局理解基准上的实验表明，HGMem显著优于强基线系统。

超图记忆多步RAG

论文核心提出基于超图的Agent记忆机制HGMem，直接聚焦记忆结构创新。

Memento 2：基于状态化反思记忆的学习

Memento 2: Learning by Stateful Reflective Memory

Jun Wang

10/10 2025-12-27 cs.AI PDF

本文研究基于大语言模型（LLM）的智能体如何通过将情景记忆与强化学习相结合实现持续学习。聚焦于“反思”能力——即智能体重访过往经验并调整未来行动选择——作为无需微调模型权重即可持续适应的核心机制。为此，作者提出状态化反思决策过程（SRDP），其中智能体维护并更新情景记忆，并在写入新经验与读取相关案例以指导决策之间交替。该框架将反思记忆动态纳入决策过程本身，使其可被控制与分析。基于此，作者开发了读写反思学习算法，将其记忆检索机制融入软策略迭代过程，并证明其收敛性；同时表明随着记忆增长并更密集覆盖任务环境，所得策略趋近最优。该工作统一了基于记忆的推理与强化学习，为具备持续、经验驱动学习能力的LLM智能体提供了形式化基础。

反思记忆情景记忆

论文核心研究反思性记忆机制及其在LLM智能体中的形式化与学习算法。

超越启发式：一种面向智能体记忆管理的决策理论框架

Beyond Heuristics: A Decision-Theoretic Framework for Agent Memory Management

Changzhi Sun, Xiangyu Chen, Jixiang Luo, Dell Zhang, Xuelong Li

10/10 2025-12-25 cs.CL PDF

外部记忆是现代大语言模型（LLM）系统的关键组件，支持长期交互与个性化。然而，当前记忆管理仍主要依赖人工设计的启发式规则，难以评估记忆决策在长期和不确定性下的影响。本文主张将记忆管理视为一个不确定性下的序贯决策问题，其中记忆效用具有延迟性且依赖于未来交互。为此，作者提出DAM（决策理论智能体记忆）框架，将记忆管理分解为即时信息访问与分层存储维护两部分，并通过价值函数与不确定性估计器评估候选操作，从而基于长期效用与风险制定聚合策略。本文贡献并非新算法，而是一种原则性重构，揭示了启发式方法的局限，并为未来不确定性感知的记忆系统研究奠定基础。

Agent Memory Decision Theory

论文聚焦Agent Memory管理机制，提出决策理论框架，属核心研究。

MemEvolve：智能体记忆系统的元演化

MemEvolve: Meta-Evolution of Agent Memory Systems

Guibin Zhang, Haotian Ren, Chong Zhan, Zhenhong Zhou, Junhao Wang et al.

10/10 2025-12-21 cs.CL PDF

自演化记忆系统正在前所未有地重塑基于大语言模型（LLM）的智能体进化范式。以往工作主要依赖人工设计的记忆架构来存储轨迹、提炼经验并合成可复用工具，使智能体能在环境交互中实时进化。然而，该范式受限于记忆系统本身的静态性：尽管记忆促进智能体层面的演化，其底层架构却无法针对不同任务上下文进行元适应。为此，本文提出MemEvolve——一种元演化框架，联合优化智能体的经验知识与其记忆架构，使其不仅能积累经验，还能持续改进学习方式。为夯实研究基础并推动开放性，我们构建了EvolveLab，一个统一的自演化记忆代码库，将十二种代表性记忆系统抽象为模块化设计空间（编码、存储、检索、管理），提供标准化实现与公平实验平台。在四个具挑战性的智能体基准上的大量实验表明，MemEvolve不仅显著提升性能（如SmolAgent和Flash-Searcher最高提升17.06%），还展现出强大的跨任务与跨LLM泛化能力。

Agent Memory Meta-Evolution

论文核心聚焦于Agent Memory架构的元演化机制，标题与内容均明确围绕记忆系统展开。

CogMem：面向大语言模型持续多轮推理的认知记忆架构

CogMem: A Cognitive Memory Architecture for Sustained Multi-Turn Reasoning in Large Language Models

Yiran Zhang, Jincheng Hu, Mark Dras, Usman Naseem

10/10 2025-12-16 cs.CL PDF

大语言模型（LLMs）在单轮推理中表现优异，但在长时间、多轮交互中常出现准确性与连贯性下降的问题。近期评估基准如TurnBench揭示了反复出现的失败模式，包括推理偏差、任务漂移、幻觉、过度自信和记忆衰减。现有方法通常直接拼接完整对话历史，导致上下文无界增长、计算开销增加及推理效率下降。本文提出CogMem——一种受认知科学启发的记忆增强型LLM架构，通过结构化、持久化的记忆支持持续迭代推理。CogMem包含三层：长期记忆（LTM）用于跨会话推理策略整合；直接访问（DA）记忆维护会话级笔记并检索相关长期记忆；注意力焦点（FoA）机制在每轮动态重构简洁、任务相关的上下文。在TurnBench上的实验表明，该分层设计有效缓解推理失败、控制上下文膨胀，并提升长推理链的一致性，推动LLM实现更可靠、类人的推理能力。

认知记忆多轮推理

论文提出专用于LLM多轮推理的认知记忆架构CogMem，核心聚焦记忆机制设计。

后见之明：构建具备保留、回忆与反思能力的智能体记忆系统

Hindsight is 20/20: Building Agent Memory that Retains, Recalls, and Reflects

Chris Latimer, Nicoló Boschi, Andrew Neeser, Chris Bartholomew, Gaurav Srivastava et al.

10/10 2025-12-14 cs.CL PDF

智能体记忆被视为基于大语言模型应用的重要发展方向，可使智能体积累经验、跨会话适应并超越单次问答。当前记忆系统多将记忆视为外部层，从对话中提取关键片段并存入向量或图数据库，再检索至提示中。然而，这类方法难以区分证据与推断、长期组织信息能力有限，且缺乏对可解释推理的支持。本文提出Hindsight架构，将记忆建模为支持推理的一等结构，划分为事实、经验、实体摘要与信念四个逻辑网络，并支持保留（retain）、回忆（recall）和反思（reflect）三大操作。实验表明，该方法在LongMemEval和LoCoMo等长程记忆基准上显著优于全上下文基线及GPT-4o。

Agent Memory Structured Memory

论文核心聚焦于LLM Agent Memory架构设计与机制创新。

Memoria：面向个性化对话AI的可扩展智能体记忆框架

Memoria: A Scalable Agentic Memory Framework for Personalized Conversational AI

Samarth Sarin, Lovepreet Singh, Bhaskarjit Sarmah, Dhagash Mehta

10/10 2025-12-14 cs.AI PDF

智能体记忆正成为大语言模型（LLM）在长期用户交互中维持连续性、个性化和上下文感知的关键能力，是实现真正交互式与自适应智能体的核心。本文提出Memoria——一种模块化记忆框架，通过持久、可解释且富含上下文的记忆机制增强基于LLM的对话系统。Memoria融合了动态会话级摘要与基于加权知识图谱的用户建模引擎，后者以结构化实体与关系形式增量捕获用户特征、偏好及行为模式。该混合架构在现代LLM的token限制下，兼顾短期对话连贯性与长期个性化。实验表明，Memoria有效弥合了无状态LLM接口与智能体记忆系统之间的鸿沟，为需自适应演进用户体验的工业应用提供了实用方案。

智能体记忆个性化对话系统

论文聚焦于Agent Memory架构设计，标题与内容均以记忆机制为核心。

通过认知记忆架构统一动态工具创建与跨任务经验共享

Unifying Dynamic Tool Creation and Cross-Task Experience Sharing through Cognitive Memory Architecture

Jiarun Liu, Shiyue Xu, Yang Li, Shangkun Liu, Yongli Yu et al.

10/10 2025-12-12 cs.CL PDF

大语言模型智能体在适应新任务时面临工具可用性与经验复用的挑战。现有方法或依赖覆盖有限的预定义工具，或从零构建工具而忽视过往经验，导致探索效率低下与性能欠佳。本文提出SMITH（共享记忆集成工具中心），一种统一的认知架构，通过分层记忆组织无缝整合动态工具创建与跨任务经验共享。SMITH将智能体记忆划分为程序性、语义性和情景性三部分，支持系统化能力扩展并保留成功执行模式。该方法将工具创建形式化为受控沙箱环境中的迭代代码生成，并通过语义相似性匹配的情景记忆检索实现经验共享。此外，作者提出基于智能体集成难度重估的课程学习策略。在GAIA基准上的大量实验表明，SMITH以81.8%的Pass@1准确率显著优于Alita（75.2%）和Memento（70.9%）等前沿基线，为构建能通过工具创建与经验积累持续进化的自适应智能体奠定基础。

认知架构分层记忆

论文提出基于分层记忆架构的认知系统，核心聚焦于Agent Memory机制。

ES-MemEval：面向个性化长期情感支持的对话智能体记忆评测基准

ES-MemEval: Benchmarking Conversational Agents on Personalized Long-Term Emotional Support

Tiantian Chen, Jiaqi Lu, Ying Shen, Lin Zhang

9/10 2026-02-02 cs.CL PDF

大语言模型（LLMs）在对话智能体中展现出强大潜力，但在如在线情感支持等复杂长期网络服务中，其效果受限于鲁棒的长期记忆能力不足。现有长期对话评测基准主要关注静态、显式事实检索，难以评估用户信息分散、隐含且持续演变的关键场景。为此，本文提出ES-MemEval，一个系统评估长期情感支持中五项核心记忆能力（信息抽取、时序推理、冲突检测、拒答机制和用户建模）的综合基准，涵盖问答、摘要与对话生成任务。同时构建了EvoEmo多会话数据集，捕捉碎片化、隐式用户披露及动态演变的用户状态。实验表明，显式长期记忆对减少幻觉和实现有效个性化至关重要；检索增强（RAG）虽提升事实一致性，但在处理时序动态与用户状态演化方面仍存挑战。

长期记忆情感支持对话系统

聚焦长期记忆能力评估，提出专门基准与数据集。

FreshMem：受大脑启发的频域-空间混合记忆用于流式视频理解

FreshMem: Brain-Inspired Frequency-Space Hybrid Memory for Streaming Video Understanding

Kangcong Li, Peng Ye, Lin Zhang, Chao Wang, Huafeng Qin et al.

9/10 2026-02-02 cs.CV PDF

将多模态大语言模型（MLLMs）从离线处理转向在线流式视频理解对持续感知至关重要。然而，现有方法缺乏灵活适应性，导致细节不可逆丢失与上下文碎片化。为此，本文提出FreshMem——一种受大脑对数感知与记忆巩固机制启发的频域-空间混合记忆网络。FreshMem通过两个协同模块实现短期保真与长期连贯性的统一：多尺度频域记忆（MFM）将溢出帧投影为代表性频率系数，并结合残差细节重建全局历史“概要”；空间缩略图记忆（STM）则通过自适应压缩策略将连续流离散为情节簇，并提炼为高密度空间缩略图。大量实验表明，FreshMem在无需训练的情况下显著提升Qwen2-VL基线，在StreamingBench、OV-Bench和OVO-Bench上分别获得5.20%、4.52%和2.34%的性能增益，优于多个全微调方法。

Agent Memory 流式视频理解

论文提出新型混合记忆架构FreshMem，核心聚焦于流式视频理解中的记忆机制设计。

FS-Researcher：基于文件系统的智能体在长周期研究任务中的测试时扩展方法

FS-Researcher: Test-Time Scaling for Long-Horizon Research Tasks with File-System-Based Agents

Chiwei Zhu, Benfeng Xu, Mingxuan Du, Shaohan Wang, Xiaorui Wang et al.

9/10 2026-02-02 cs.CL PDF

深度研究正成为大语言模型（LLM）智能体的典型长周期任务。然而，其长轨迹常超出模型上下文限制，压缩了证据收集与报告撰写的token预算，阻碍了有效的测试时扩展。本文提出FS-Researcher——一种基于文件系统的双智能体框架，通过持久化工作区将深度研究扩展至上下文窗口之外。其中，Context Builder智能体作为“图书管理员”，负责浏览网络、撰写结构化笔记，并将原始资料归档至可远超上下文长度的分层知识库；Report Writer智能体则逐节撰写最终报告，以该知识库为事实来源。文件系统在此充当持久外部记忆与跨智能体、跨会话的共享协调媒介，支持上下文窗口外的迭代优化。在DeepResearch Bench和DeepConsult两个开放式基准上的实验表明，FS-Researcher在不同主干模型上均取得最先进的报告质量。进一步分析证实，最终报告质量与分配给Context Builder的计算资源呈正相关，验证了该文件系统范式下有效的测试时扩展能力。

外部记忆文件系统长周期任务测试时扩展

提出基于文件系统的持久化外部记忆机制，是Agent Memory的核心架构创新。

SpeechLess：基于个性化空间记忆的日常增强现实微语音助手

SpeechLess: Micro-utterance with Personalized Spatial Memory-aware Assistant in Everyday Augmented Reality

Yoonsang Kim, Devshree Jadeja, Divyansh Pradhan, Yalong Yang, Arie Kaufman

9/10 2026-01-31 cs.HC PDF

在公共场所对可穿戴AR助手大声说话可能引发社交尴尬，且每日重复表达相同请求造成不必要的负担。本文提出SpeechLess——一种可穿戴AR助手，引入基于个性化空间记忆的语音意图粒度控制范式，使用户“少说多得”，并在需要复杂表达时支持意图的逐步显式化。SpeechLess将先前交互绑定到多模态个人上下文（包括空间、时间、活动和指代对象）以形成空间记忆，并据此从不完整用户查询中推断缺失的意图维度，从而支持从完整语句到微/零语音交互的动态调整。通过为期一周的预研实验揭示了公共语音使用的不适感、重复语音的挫败感及硬件限制；在此基础上设计并评估了SpeechLess。结果表明，该系统可在多样日常环境中有效提升信息获取效率、降低表达负担，并支持社交可接受性，同时不显著损害可用性感知与意图解析准确率。

空间记忆增强现实

论文核心提出基于个性化空间记忆的意图推断机制，直接构建和利用空间记忆系统。

面向视觉多智能体系统的双潜记忆机制

Dual Latent Memory for Visual Multi-agent System

Xinlei Yu, Chengming Xu, Zhangquan Chen, Bo Yin, Cheng Yang et al.

9/10 2026-01-31 cs.AI PDF

尽管视觉多智能体系统（VMAS）有望通过智能体间协作提升综合能力，但实证研究表明存在反直觉的“扩展壁垒”：增加智能体轮次常导致性能下降并指数级增加token消耗。作者将此归因于以文本为中心通信中的信息瓶颈——将感知与思维轨迹转化为离散自然语言不可避免地造成语义损失。为此，本文提出L²-VMAS，一种模型无关的框架，通过双潜记忆实现智能体协作，并解耦感知与思维过程，动态融合两类潜记忆。此外，引入熵驱动的主动触发机制，以按需记忆访问替代被动信息传输。大量实验表明，该方法有效突破“扩展壁垒”，平均准确率提升2.7–5.4%，同时减少21.3–44.8%的token使用。

多智能体系统潜记忆

论文提出双潜记忆机制，核心解决Agent间记忆传递与信息瓶颈问题。

当智能体“集体误记”时：探索基于大语言模型的多智能体系统中的曼德拉效应

When Agents "Misremember" Collectively: Exploring the Mandela Effect in LLM-based Multi-Agent Systems

Naen Xu, Hengyu An, Shuo Shi, Jinghuai Zhang, Chunyi Zhou et al.

9/10 2026-01-31 cs.CL PDF

近期大语言模型（LLM）的进步显著提升了协作式多智能体系统处理复杂任务的能力。然而，这些系统中智能体对集体认知偏差的易感性仍缺乏深入研究，典型如曼德拉效应——群体因社会影响和内化错误信息而共同错误记忆过往事件。本文系统研究了LLM多智能体系统中的曼德拉效应，探究其存在性、成因及缓解策略。我们提出MANBENCH基准，涵盖四类易受该效应影响的任务和五种不同角色与记忆时间尺度的交互协议，并在多个LLM驱动的智能体上进行评估。此外，提出提示层防御（如认知锚定、信源审查）和模型层对齐防御策略，相较基线平均降低74.40%的曼德拉效应。本研究为构建更具鲁棒性与伦理一致性的协作多智能体系统提供了重要洞见。

集体记忆认知偏差

聚焦多智能体系统中的集体记忆偏差，核心探讨记忆机制与失真问题。

MiTa：一种融合记忆与任务分配的分层多智能体协作框架

MiTa: A Hierarchical Multi-Agent Collaboration Framework with Memory-integrated and Task Allocation

XiaoJie Zhang, JianHan Wu, Xiaoyang Qu, Jianzong Wang

9/10 2026-01-30 cs.ET PDF

大语言模型（LLM）的最新进展显著推动了具身智能体的发展。基于LLM的多智能体系统缓解了单智能体在复杂任务中的低效问题，但仍面临记忆不一致与智能体行为冲突等挑战。为此，本文提出MiTa——一种融合记忆与任务分配的分层协作框架，通过管理者-成员层级结构提升协作效率。管理者配备任务分配与摘要模块：前者实现全局任务分配以避免智能体间冲突；后者在任务进展更新时触发，将近期协作历史压缩为简洁摘要，保留长时程上下文。实验表明，MiTa在复杂多智能体协作任务中相较强基线方法展现出更优的效率与适应性。

多智能体系统情景记忆

论文核心提出记忆整合机制，标题明确包含memory，且记忆是协作框架的关键组成部分。

MoVE：值嵌入混合——自回归模型中扩展参数化记忆的新维度

MoVE: Mixture of Value Embeddings -- A New Axis for Scaling Parametric Memory in Autoregressive Models

Yangyan Li

9/10 2026-01-30 cs.LG PDF

自回归序列建模是现代生成式AI的基石，但其模型容量与计算成本紧密耦合：扩展参数化记忆（如事实知识或视觉模式）通常需加深或加宽网络，导致计算开销线性增长。本文提出MoVE（值嵌入混合）机制，通过在所有注意力层共享一个可学习的全局值嵌入库，并在每步序列中使用可微软门控动态混合检索到的概念与标准值投影，从而将记忆与计算解耦。该架构允许仅通过增加嵌入槽位数量独立扩展参数化记忆。在文本与图像生成任务上的严格实验表明，MoVE显著优于标准及分层记忆基线，可在相同计算预算下构建“记忆密集型”模型，实现更低困惑度与更高生成保真度。

参数化记忆自回归模型

提出MoVE机制，直接解耦参数化记忆与计算，核心研究记忆架构。

AutoRefine：从轨迹到可复用专长的持续大语言模型智能体优化框架

AutoRefine: From Trajectories to Reusable Expertise for Continual LLM Agent Refinement

Libin Qiu, Zhirong Gao, Junfu Chen, Yuhang Ye, Weizhi Huang et al.

9/10 2026-01-30 cs.AI PDF

大语言模型智能体常难以从经验中积累知识，将每个任务视为独立挑战。现有方法将经验提取为扁平文本知识，无法捕捉复杂子任务的程序逻辑，且缺乏维护机制，导致经验库随积累而退化。本文提出AutoRefine框架，从智能体执行历史中提取并维护双形态经验模式：对程序性子任务，提取具备独立推理与记忆能力的专用子智能体；对静态知识，则提取为指南或代码片段形式的技能模式。框架还包含持续维护机制，通过评分、剪枝与合并防止经验库退化。在ALFWorld、ScienceWorld和TravelPlanner上的实验表明，AutoRefine分别达到98.4%、70.4%和27.1%的成功率，并减少20–73%的执行步骤；在TravelPlanner上，其自动提取性能超越人工设计系统（27.1% vs 12.1%），验证了其捕获程序协调能力的有效性。

经验记忆持续学习

提出双形态经验模式及持续维护机制，核心解决Agent记忆积累与退化问题。

MERMAID：基于多智能体迭代知识锚定的记忆增强检索与推理用于真实性评估

MERMAID: Memory-Enhanced Retrieval and Reasoning with Multi-Agent Iterative Knowledge Grounding for Veracity Assessment

Yupeng Cao, Chengyang He, Yangyang Yu, Ping Wang, K. P. Subbalakshmi

9/10 2026-01-29 cs.CL PDF

在线内容的真实性评估日益重要。尽管大语言模型（LLMs）在自动事实核查和主张验证方面取得进展，现有方法通常将证据检索视为静态、孤立的步骤，难以跨主张有效管理或复用证据。本文提出MERMAID——一种记忆增强的多智能体真实性评估框架，通过将检索与推理过程紧密耦合，在Reason-Action式迭代流程中整合智能体驱动的搜索、结构化知识表示和持久记忆模块，实现动态证据获取与跨主张证据复用。实验证明，MERMAID在多个基准上达到最先进性能，同时提升检索效率，验证了融合检索、推理与记忆对可靠真实性评估的有效性。

Agent Memory 多智能体系统

论文核心提出带持久记忆模块的多智能体框架，显式建模证据记忆机制。

SONIC：面向键值缓存信息压缩的分段优化枢纽

SONIC: Segmented Optimized Nexus for Information Compression in Key-Value Caching

Hong Chen, Xiang Liu, Bo Wang, Yuxuan Fan, Yuanlin Chu et al.

9/10 2026-01-29 cs.CL PDF

键值（KV）缓存的线性增长仍是多轮大语言模型部署的瓶颈。现有KV缓存压缩方法常忽视多轮对话的结构特性，依赖启发式剔除策略，易丢失关键上下文。本文提出SONIC——一种基于学习的框架，将历史对话片段压缩为紧凑且语义丰富的“枢纽”（Nexus）令牌。通过引入动态预算训练，SONIC可在无需重新训练的情况下灵活适应不同内存约束。实验表明，在80%和50%压缩率下，SONIC在四个多轮对话基准上均优于H2O和StreamingLLM等基线方法；在广泛使用的MTBench101基准上，平均得分较当前最优方法提升35.55%，有效维持了多轮对话连贯性，并将整体推理速度提升50.1%。

KV缓存压缩多轮对话记忆

聚焦KV缓存压缩，直接优化Agent长期记忆机制。

通过任务导向的对抗式记忆适应增强对话智能体

Enhancing Conversational Agents via Task-Oriented Adversarial Memory Adaptation

Yimin Deng, Yuqing Fu, Derong Xu, Yejing Wang, Wei Ni et al.

9/10 2026-01-29 cs.CL PDF

对话智能体因上下文窗口限制难以处理长对话，现有记忆系统通常采用离线构建与更新、在线检索的流程。然而，其离线阶段固定且任务无关，导致记忆内容与下游任务需求不匹配。为此，本文提出对抗式记忆适应机制（AMA），通过模拟任务执行实现记忆构建与更新的任务对齐：挑战者智能体基于原始对话生成问答对，利用构建的记忆作答以模拟推理；评估者智能体分析回答错误；适配器智能体据此在策略与内容层面进行双重更新。该机制使记忆系统在离线阶段即获得任务感知监督信号，提升对下游任务的适应性。实验表明，AMA可集成至多种现有记忆系统，并在长对话基准LoCoMo上显著提升性能。

对话智能体记忆系统任务导向学习对抗适应

论文聚焦于对话Agent中的记忆系统优化，提出任务导向的对抗式记忆适应机制，核心解决记忆构建与更新对下游任务的适配问题。

ScaleSim：基于调用距离的内存管理实现大规模多智能体仿真的高效服务

ScaleSim: Serving Large-Scale Multi-Agent Simulation with Invocation Distance-Based Memory Management

Zaifeng Pan, Yipeng Shen, Zhengding Hu, Zhuang Wang, Aninda Manocha et al.

9/10 2026-01-29 cs.AI PDF

基于大语言模型（LLM）的多智能体仿真在多个应用领域日益普及，但受限于GPU内存压力而难以扩展。每个智能体维护其私有的驻留GPU状态，包括模型、前缀缓存和适配器，随着智能体数量增长迅速耗尽设备内存。作者识别出此类工作负载的两个关键特性：稀疏激活与可估计的调用顺序，并据此提出“调用距离”这一统一抽象，用于预测智能体未来LLM请求的相对顺序。基于该抽象，论文设计了ScaleSim——一个面向大规模多智能体仿真的内存高效LLM服务系统，支持主动预取、优先级驱逐及模块化智能体内存管理，在仿真基准上相较SGLang最高提速1.74倍。

多智能体仿真 GPU内存管理

论文聚焦多智能体仿真中的GPU内存管理，提出基于调用距离的内存抽象与系统优化。

超越“针在草堆”幻觉：在3.26亿词元规模下对语义干扰中证据访问与使用的解耦评估

Beyond the Needle's Illusion: Decoupled Evaluation of Evidence Access and Use under Semantic Interference at 326M-Token Scale

Tianwei Lin, Zuyi Zhou, Xinda Zhao, Chenke Wang, Xiaohong Li et al.

9/10 2026-01-28 cs.CL PDF

长上下文大语言模型（LLM）智能体需从大规模环境中准确检索并忠实使用证据。然而，流行的“针在草堆”（NIAH）评估主要衡量良性的片段定位，其中“针”近乎唯一，“草堆”大多无关。本文提出EverMemBench-S（EMB-S），一个基于3.26亿词元MemoryBank的对抗性NIAH风格基准。为公平比较，仅在模型上下文窗口内（最高1M词元）评估原生长上下文模型。EMB-S通过人工筛选与LLM验证，为查询配对经碰撞测试的近似负样本及跨多文档的黄金证据集。作者还提出解耦诊断协议，分别报告证据访问（文档ID定位）与端到端问答质量，适用于原生提示与检索增强系统。实验表明，在语义干扰下，即使在NIAH上表现优异的系统，其证据访问能力也显著下降，揭示语义区分能力而非上下文长度才是大规模长上下文记忆的主要瓶颈。

长上下文记忆语义干扰

聚焦长上下文Agent的记忆检索与语义干扰下的证据使用，核心评估记忆机制。

Me-Agent：一种基于两级用户习惯学习的个性化移动智能体

Me-Agent: A Personalized Mobile Agent with Two-Level User Habit Learning for Enhanced Interaction

Shuoxin Wang, Chang Liu, Gowen Loo, Lifan Zheng, Kaiwen Wei et al.

9/10 2026-01-28 cs.CL PDF

基于大语言模型（LLM）的移动智能体虽取得显著进展，但常忽视用户个性化需求，难以处理模糊指令、缺乏对交互历史的学习，且无法理解个性化指令。为此，本文提出Me-Agent——一种可学习、可记忆的个性化移动智能体。其采用两级用户习惯学习机制：在提示层面，引入结合个性化奖励模型的用户偏好学习策略；在记忆层面，设计分层偏好记忆结构，分别存储用户的长期记忆与应用特定记忆。为评估个性化能力，作者构建了包含大量日常模糊指令的新基准User FingerTip。实验表明，Me-Agent在个性化任务上达到最先进水平，同时保持优异的指令执行性能。

Agent Memory 个性化智能体

提出分层偏好记忆机制，核心聚焦于Agent Memory架构设计。

迈向超长周期智能体科学：面向机器学习工程的认知积累

Toward Ultra-Long-Horizon Agentic Science: Cognitive Accumulation for Machine Learning Engineering

Xinyu Zhu, Yuzhu Cai, Zexi Liu, Bingyang Zheng, Cheng Wang et al.

9/10 2026-01-15 cs.AI PDF

当前人工智能向智能体科学的发展受限于超长周期自主性——即在持续数天或数周的实验周期中维持战略连贯性与迭代修正的能力。尽管大语言模型（LLMs）在短周期推理中表现优异，但在高维、延迟反馈的真实科研环境中易被执行细节淹没，难以将稀疏反馈整合为长期指导。本文提出ML-Master 2.0，一种掌握超长周期机器学习工程（MLE）的自主智能体。通过将上下文管理重构为认知积累过程，引入受计算机系统启发的分层认知缓存（HCC）架构，实现经验在时间维度上的结构化区分。HCC动态将瞬时执行轨迹提炼为稳定知识与跨任务智慧，使智能体解耦即时执行与长期实验策略，有效突破静态上下文窗口的扩展限制。在OpenAI MLE-Bench上24小时预算内，ML-Master 2.0达到56.44%的最先进奖牌率。

Agent Memory Long-horizon Autonomy

提出分层认知缓存机制，核心解决长期记忆与知识积累问题。

数字代谢：通过再生性遗忘解耦逻辑与事实——迈向纯神经逻辑核心

Digital Metabolism: Decoupling Logic from Facts via Regenerative Unlearning -- Towards a Pure Neural Logic Core

Mengmeng Peng, Zhenyu Fang, He Sun

9/10 2026-01-15 cs.LG PDF

当前大语言模型（LLMs）存在参数纠缠问题，即通用推理能力（逻辑）与具体事实知识（事实）在共享权重中处于叠加态，导致“记忆墙”现象，浪费计算资源并引发幻觉。本文提出“数字代谢”假说，认为定向遗忘是提炼纯神经逻辑核心的必要过程。为此，我们设计了再生性逻辑核心协议（RLCP），一种双流训练框架，通过深层梯度反转使特定事实依赖在线性层面不可解码。在Qwen2.5-0.5B上的实验显示，模型对目标事实的保留率趋近于零（准确率<7%），同时呈现出“结构结晶化”效应。GSM8K测试表明，该“代谢”模型自发采用思维链（CoT）推理，以补偿直接联想回忆的缺失（从O(1)回忆转向O(N)推理）。该研究为模块化“神经CPU+符号RAM”架构奠定基础。

Agent Memory Neural Logic Core

提出“数字代谢”机制，通过定向遗忘解耦逻辑与事实记忆，直接研究Agent Memory核心架构。

PersonalAlign：面向个性化GUI智能体的分层隐式意图对齐与长期以用户为中心的记录

PersonalAlign: Hierarchical Implicit Intent Alignment for Personalized GUI Agent with Long-Term User-Centric Records

Yibo Lyu, Gongwei Chen, Rui Shao, Weili Guan, Liqiang Nie

9/10 2026-01-14 cs.AI PDF

尽管GUI智能体在显式和完成型指令下表现优异，但实际部署需对齐用户更复杂的隐式意图。本文提出“个性化GUI智能体的分层隐式意图对齐”（PersonalAlign）新任务，要求智能体利用长期用户记录作为持久上下文，解析模糊指令中省略的偏好，并基于用户状态预判潜在例行行为以提供主动协助。为此，我们构建了AndroidIntent基准，包含从2万条长期记录中标注的775项用户偏好与215个例行流程。同时，我们提出分层意图记忆智能体（HIM-Agent），持续更新个人记忆并分层组织偏好与例行行为以实现个性化。在AndroidIntent上的评估表明，HIM-Agent相较GPT-5、Qwen3-VL和UI-TARS等模型，在执行与主动性能上分别提升15.7%和7.3%。

Agent Memory Personalization

论文核心提出基于长期用户记录的分层意图记忆机制，明确构建个性化记忆系统。

知识交汇之处：语言模型内部记忆知识冲突的机制研究

Where Knowledge Collides: A Mechanistic Study of Intra-Memory Knowledge Conflict in Language Models

Minh Vu Pham, Hsuvas Borkakoty, Yufang Hou

9/10 2026-01-14 cs.CL PDF

在语言模型（LMs）中，当关于同一事件的不一致信息被编码到模型的参数化知识中时，会引发内部记忆知识冲突。以往工作主要通过微调或知识编辑等方法解决模型内部知识与外部资源之间的冲突，但对预训练阶段在模型内部表征中产生的冲突定位问题尚未探索。本文基于机制可解释性方法构建框架，识别预训练数据中的冲突知识在语言模型中的编码位置与方式。研究发现，模型特定内部组件负责编码预训练中的冲突知识，并展示了如何利用机制可解释性方法在推理阶段对冲突知识进行因果干预与控制。

机制可解释性知识冲突

聚焦语言模型内部记忆中知识冲突的机制与定位，属核心记忆研究。

MineNPC-Task：面向具备记忆能力的Minecraft智能体的任务套件

MineNPC-Task: Task Suite for Memory-Aware Minecraft Agents

Tamil Sudaravan Mohan Doss, Michael Xu, Sudha Rao, Andrew D. Wilson, Balasaravanan Thoravi Kumaravel

Tamil Sudaravan Mohan Doss (Microsoft) | Michael Xu (Microsoft ResearchUnited States) | Sudha Rao (Microsoft ResearchUnited States)

9/10 2026-01-08 cs.AI PDF

本文提出MineNPC-Task，一个由用户构建的基准与评估框架，用于在开放世界《我的世界》中测试具备记忆能力、支持混合主动性的大语言模型智能体。任务源自与专家玩家的协作游戏，经规范化为带显式前提条件与依赖结构的参数化模板，并配以机器可验证的校验器，遵循禁止利用外部知识的有限知识策略。该框架记录计划/行动/记忆事件（包括计划预览、定向澄清、记忆读写、前提检查与修复尝试），并基于游戏内证据统计子任务完成情况。初步实验使用GPT-4o，在8名资深玩家参与下评估了216个子任务，揭示了代码执行、物品/工具操作、引用与导航中的常见失败模式，以及依赖混合主动性澄清和轻量记忆的恢复机制。参与者对交互质量与界面可用性给予积极评价，同时指出跨任务记忆持久性的不足。作者开源完整任务套件、验证器、日志与评估框架，以支持未来具身记忆智能体的透明、可复现评估。

Agent Memory Embodied AI

论文聚焦于评估具有记忆能力的LLM智能体，明确设计记忆读写、持久性等机制。

基于智能体记忆增强的递归推理在微服务根因定位中的应用

Agentic Memory Enhanced Recursive Reasoning for Root Cause Localization in Microservices

Lingzhe Zhang, Tong Jia, Yunpeng Zhai, Leyi Pan, Chiming Duan et al.

Lingzhe Zhang (Peking UniversityBeijingChina) | Tong Jia∗ (Peking UniversityBeijingChina) | Yunpeng Zhai (Alibaba GroupChina)

9/10 2026-01-06 cs.SE PDF

随着微服务系统日益复杂，故障频发，准确的根因定位对保障系统可靠性至关重要。现有LLM方法常受限于浅层症状推理和缺乏跨告警复用，导致精度低、延迟高。本文通过调研多位站点可靠性工程师（SRE）的根因分析实践，提炼出递归性、多维扩展性和跨模态推理三大特征，并据此提出AMER-RCL框架。该框架结合递归推理引擎与智能体记忆（Agentic Memory），前者对每个告警进行递归细化候选根因，后者在时间窗口内累积并复用历史推理结果，减少冗余探索。实验表明，AMER-RCL在定位准确率和推理效率上均优于现有最先进方法。

Agent Memory Root Cause Localization

论文提出Agentic Memory机制，作为核心组件用于跨告警推理复用，显著提升效率与准确性。

用于大语言模型持续适应的记忆库压缩方法

Memory Bank Compression for Continual Adaptation of Large Language Models

Thomas Katraouras, Dimitrios Rafailidis

9/10 2026-01-02 cs.LG PDF

大语言模型（LLMs）在日常应用中广泛使用，但其知识易随数据演化而过时。持续学习旨在更新模型知识而不遗忘旧信息，但全量微调计算成本高且易导致灾难性遗忘。现有记忆增强方法通过外部记忆库存储信息，但在真实场景中面临记忆库无限增长的问题。本文提出MBC模型，通过码本优化策略在线压缩记忆库，并引入在线重置机制防止码本坍塌。同时，在LLM注意力层采用键值低秩适配（Key-Value LoRA），高效利用压缩后的记忆表示。实验表明，MBC在保持高保留准确率的同时，将记忆库规模压缩至最强基线的0.3%。

记忆压缩持续学习

论文聚焦于LLM外部记忆库的压缩机制，直接研究Agent Memory核心问题。

Code

人际记忆至关重要：一种利用对话历史的主动对话新任务

Interpersonal Memory Matters: A New Task for Proactive Dialogue Utilizing Conversational History

Bowen Wu, Wenqing Wang, Haoran Li, Ying Li, Jingsong Yu et al.

9/10 2025-03-07 cs.CL PDF

主动对话系统旨在使聊天机器人具备引导对话朝特定目标推进的能力，以提升用户参与度与服务自主性。现有系统通常仅关注预定义关键词或实体，忽视了对话历史中隐含的用户属性与偏好，难以建立长期用户亲密度。为此，本文提出将主动对话系统与长期记忆机制融合的统一框架，定义了名为“记忆感知主动对话”（MapDia）的新任务，并构建了首个中文记忆感知主动对话数据集（ChMapData）。此外，设计了一个基于检索增强生成（RAG）的联合框架，包含话题摘要、话题检索及主动话题转换检测与生成三个模块，以在适当时机引导对话回归相关历史话题。通过自动与人工评估验证了数据集与模型的有效性。

Agent Memory Proactive Dialogue

论文核心聚焦于将长期记忆融入主动对话系统，明确提出记忆感知任务。

Code

DeALOG：基于日志中介的去中心化多智能体推理框架

DeALOG: Decentralized Multi-Agents Log-Mediated Reasoning Framework

Abhijit Chakraborty, Ashish Raj Shekhar, Shiven Agarwal, Vivek Gupta

8/10 2026-02-01 cs.CL PDF

跨文本、表格和图像的复杂问答任务需要整合多样化的信息源，亟需一种支持专业化处理、协调性与可解释性的框架。本文提出DeALOG，一种用于多模态问答的去中心化多智能体框架。该框架包含表格、上下文、视觉、摘要与验证等专用智能体，通过共享的自然语言日志进行通信，该日志作为持久记忆载体。这种基于日志的方法在无中心控制的情况下实现协同错误检测与验证，提升系统鲁棒性。在FinQA、TAT-QA、CRT-QA、WikiTableQuestions、FeTaQA和MultiModalQA等多个基准上的评估表明其性能具有竞争力。分析证实共享日志、智能体专业化与验证机制对准确率至关重要。DeALOG通过模块化组件与自然语言通信提供了一种可扩展的解决方案。

多智能体系统记忆机制

提出基于共享日志的持久记忆机制，是多智能体协作的核心组件。

MonoScale：通过单调改进扩展多智能体系统

MonoScale: Scaling Multi-Agent System with Monotonic Improvement

Shuai Shao, Yixiang Liu, Bingwei Lu, Weinan Zhang

8/10 2026-01-30 cs.MA PDF

近年来，基于大语言模型的多智能体系统（MAS）快速发展，通常利用路由器分解任务并分配给专用智能体。直接扩展智能体池易因路由器对新增异构、不可靠智能体的冷启动而导致性能崩溃。本文提出MonoScale，一种面向扩展的更新框架，主动生成少量智能体条件化熟悉任务，从成功与失败交互中收集证据，并将其提炼为可审计的自然语言记忆以指导后续路由。我们将顺序增强形式化为上下文赌博机问题，并采用信任区域记忆更新策略，确保在各轮次接入过程中性能单调非递减。在GAIA和Humanity's Last Exam上的实验表明，随着智能体池扩大，系统性能稳定提升，优于朴素扩展及固定池强路由器基线。

Agent Memory Multi-Agent Systems

提出可审计的自然语言记忆机制用于路由决策，是系统核心组件。

不要浪费你的推理轨迹：回收搜索经验以实现高效的测试时扩展

Do Not Waste Your Rollouts: Recycling Search Experience for Efficient Test-Time Scaling

Xinglin Wang, Jiayi Shi, Shaoxiong Feng, Peiwen Yuan, Yiwei Li et al.

8/10 2026-01-29 cs.CL PDF

测试时扩展通过分配额外的推理计算资源来增强大语言模型的推理能力，但现有搜索策略通常将推理轨迹视为一次性样本，导致宝贵的中间洞察被丢弃，造成大量计算冗余。为此，本文提出“回收搜索经验”（RSE），一种无需训练的自引导策略，将测试时搜索从孤立尝试转变为累积过程。RSE通过将原始推理轨迹提炼为共享经验库，正向复用中间结论以跳过冗余推导，负向复用失败模式以剪枝已知死胡同。理论分析证明了RSE在复杂推理任务中相较独立采样的效率优势；在HMMT24、HMMT25、IMO-Bench和HLE上的实验表明，RSE在相近计算成本下显著优于强基线，达到最先进的扩展效率。

Agent Memory Test-Time Scaling

提出经验复用机制，构建共享记忆库以避免重复推理，核心涉及Agent记忆机制。

RecNet：面向智能体推荐系统的自演化偏好传播机制

RecNet: Self-Evolving Preference Propagation for Agentic Recommender Systems

Bingqian Li, Xiaolei Wang, Junyi Li, Weitao Li, Long Zhang et al.

Bingqian Li∗ (GSAI, Renmin University of ChinaBeijingChina) | Xiaolei Wang∗ (GSAI, Renmin University of ChinaBeijingChina) | Junyi Li (Department of Data Science, City University of Hong KongHong KongChina)

8/10 2026-01-29 cs.AI PDF

智能体推荐系统利用大语言模型（LLMs）建模复杂用户行为并支持个性化决策。然而，现有方法主要依赖稀疏、噪声大的显式用户-物品交互数据，难以捕捉用户与物品间的实时相互影响。为此，本文提出RecNet——一种自演化的偏好传播框架，主动在相关用户与物品间传播实时偏好更新。RecNet包含两个互补阶段：前向阶段通过中心化偏好路由机制，利用路由智能体整合并动态传播偏好至最相关智能体，并引入个性化偏好接收机制，结合消息缓冲区与可优化的规则记忆模块，基于过往经验与兴趣选择性吸收偏好；后向阶段则采用反馈驱动的传播优化机制，模拟多智能体强化学习框架，利用LLM进行信用分配、梯度分析与模块级优化，实现传播策略的持续自演化。大量实验验证了RecNet在建模推荐系统偏好传播中的有效性。

Agent Memory Preference Propagation

提出基于记忆机制的偏好传播框架，核心包含可优化的规则记忆模块。

探究工具增强大语言模型中的工具-记忆冲突

Investigating Tool-Memory Conflicts in Tool-Augmented LLMs

Jiali Cheng, Rui Pan, Hadi Amiri

8/10 2026-01-14 cs.SE PDF

工具增强的大语言模型（LLMs）已推动众多应用发展，但可能面临知识冲突问题。本文提出一种新型知识冲突——工具-记忆冲突（Tool-Memory Conflict, TMC），即模型内部参数化知识与外部工具知识相互矛盾。研究发现，现有大语言模型在STEM相关任务中尤为容易受TMC影响。此外，不同条件下工具知识与参数化知识的优先级存在差异。作者评估了包括基于提示和RAG在内的现有冲突解决方法，结果表明这些方法均无法有效缓解工具-记忆冲突。

工具增强知识冲突参数化记忆外部工具

聚焦工具知识与参数化记忆的冲突，属Agent Memory核心问题。

AgentOCR：通过光学自压缩重构智能体历史记忆

AgentOCR: Reimagining Agent History via Optical Self-Compression

Lang Feng, Fuchao Yang, Feng Chen, Xin Cheng, Haiyang Xu et al.

8/10 2026-01-08 cs.LG PDF

大型语言模型（LLM）的最新进展支持基于强化学习训练的多轮交互智能体系统，但其实际部署受限于不断增长的文本历史记录，导致令牌预算和内存消耗激增。本文提出AgentOCR框架，利用视觉令牌更高的信息密度，将累积的观察-动作历史压缩为紧凑的渲染图像。为实现可扩展的多轮推理，AgentOCR引入分段光学缓存机制，通过将历史分解为可哈希片段并维护视觉缓存，避免冗余重渲染。此外，该框架还提出智能体自压缩机制，使智能体能主动输出压缩率，并通过压缩感知奖励进行训练，以自适应平衡任务成功率与令牌效率。在ALFWorld和基于搜索的问答等挑战性基准上的实验表明，AgentOCR在保持超过95%文本智能体性能的同时，显著降低令牌消耗（>50%），并实现一致的令牌与内存效率提升。

Agent Memory Memory Compression

提出视觉化压缩历史记忆机制，直接优化Agent Memory效率。

跨模态神经形态计算中的模态依赖性记忆机制

Modality-Dependent Memory Mechanisms in Cross-Modal Neuromorphic Computing

Effiong Blessing, Chiung-Yi Tseng, Somshubhra Roy, Junaid Rehman, Isaac Nkrumah

8/10 2025-12-21 cs.LG PDF

增强记忆的脉冲神经网络（SNNs）有望实现高能效的神经形态计算，但其在不同感官模态间的泛化能力尚未探索。本文首次对SNN中的记忆机制开展全面的跨模态消融研究，评估Hopfield网络、分层门控循环网络（HGRN）和监督对比学习（SCL）在视觉（N-MNIST）与听觉（SHD）神经形态数据集上的性能。结果揭示显著的模态依赖性：Hopfield网络在视觉任务上达97.68%准确率，但在听觉任务仅76.15%；SCL则表现更均衡。研究证明记忆机制具有任务特异性而非普适性，并通过多模态联合训练验证了统一部署的有效性。定量记忆痕迹分析显示跨模态对齐较弱（相似度0.038），支持并行架构设计。该工作首次为神经形态系统中模态特异性记忆优化提供实证依据，能效比传统神经网络提升603倍。

神经形态计算脉冲神经网络

聚焦记忆机制在神经形态计算中的跨模态表现，属核心记忆研究。

每页显示:

排序:

RE-TRAC：面向深度搜索智能体的递归轨迹压缩方法

RE-TRAC: REcursive TRAjectory Compression for Deep Search Agents

Jialiang Zhu, Gongrui Zhang, Xiaolong Ma, Lin Xu, Miaosen Zhang et al.

8/10 2026-02-02 cs.CL PDF

基于大语言模型的深度研究智能体多采用ReAct框架，其线性设计难以回溯早期状态、探索替代路径或在长上下文中保持全局感知，易陷入局部最优与冗余搜索。本文提出Re-TRAC框架，通过在每条轨迹后生成结构化状态表示，汇总证据、不确定性、失败原因及后续计划，并以此引导后续轨迹，实现跨轨迹探索、迭代反思与全局信息驱动的规划，将研究重构为渐进式过程。实验表明，Re-TRAC在BrowseComp上相较ReAct提升15–20%；针对小模型引入Re-TRAC感知的监督微调，达到同规模SOTA性能。此外，工具调用与token消耗随轮次单调下降，表明其通过跨轨迹反思实现高效定向探索。

Agent Memory Trajectory Compression

提出跨轨迹状态表示以支持迭代反思与全局规划，属记忆机制关键应用。

不止于匆匆一瞥：克服KV缓存压缩中的贪婪偏差

More Than a Quick Glance: Overcoming the Greedy Bias in KV-Cache Compression

Aryan Sood, Tanvi Sharma, Vansh Agrawal

8/10 2026-02-02 cs.AI PDF

尽管大语言模型（LLMs）理论上支持超长上下文窗口，但其实际部署受限于键值（KV）缓存内存的线性增长。现有压缩策略虽通过剪枝机制缓解该问题，却常以牺牲语义召回为代价换取内存效率。本文提出LASER-KV（基于精确局部敏感哈希的层累积选择框架），在严格累积预算策略下探索KV压缩极限。不同于固定摘要大小的方法，该框架采用由保护除数（n）控制的分块累积策略，有效分离压缩效应与滑动窗口伪影。在Babilong基准上的实验表明，先前方法在多种长上下文任务中性能下降15–30%，而LASER-KV在128k上下文长度下保持稳定，准确率最高提升10%。研究挑战了“注意力分数足以作为token效用代理”的主流假设。

KV缓存压缩长上下文建模

聚焦KV缓存压缩，属LLM推理内存优化，与Agent Memory密切相关但非专为Agent设计。

多模态语言模型中用于KV缓存管理的分层自适应驱逐方法

Hierarchical Adaptive Eviction for KV Cache Management in Multimodal Language Models

Xindian Ma, Yidi Lu, Peng Zhang, Jing Zhang

8/10 2026-02-02 cs.LG PDF

将视觉信息融入大语言模型催生了多模态大语言模型（MLLMs），但Transformer架构的二次方内存与计算开销仍是瓶颈。现有KV缓存驱逐策略未能处理视觉与文本token间异构的注意力分布，导致效率低下或性能下降。本文提出分层自适应驱逐（HAE）框架，通过预填充阶段的双注意力剪枝（利用视觉token稀疏性与注意力方差）和受操作系统回收站启发的动态解码驱逐策略，优化MLLM中文本-视觉token交互。HAE在各层最小化KV缓存使用，通过索引广播降低计算开销，并在理论上保证优于贪心策略的信息完整性与更低误差界。实验表明，在Phi3.5-Vision-Instruct模型上，HAE在图像理解任务中减少41% KV缓存内存（准确率仅下降0.3%），并在故事生成任务中实现1.5倍推理加速且保持输出质量。

KV缓存管理多模态大语言模型

聚焦KV缓存管理，属LLM内存优化关键机制，但非通用Agent Memory架构。

通过自适应信息控制扩展搜索增强型大语言模型推理能力

Scaling Search-Augmented LLM Reasoning via Adaptive Information Control

Siheng Xiong, Oguzhan Gungordu, Blair Johnson, James C. Kerce, Faramarz Fekri

8/10 2026-02-02 cs.CL PDF

搜索增强型推理智能体通过多步推理与外部信息检索交替进行，但无约束的检索常导致冗余证据、上下文过载及学习不稳定。现有方法依赖基于结果的强化学习（RL），对信息获取调控指导有限。本文提出DeepControl框架，基于形式化的信息效用概念——衡量在给定推理状态下检索证据的边际价值——引入检索延续性与粒度控制机制，动态决定何时继续或停止检索以及扩展多少信息。通过退火控制策略，使智能体在训练中内化高效的信息获取行为。在七个基准上的实验表明，该方法显著优于强基线，在Qwen2.5-7B和Qwen2.5-3B上平均性能分别提升9.4%和8.6%，凸显自适应信息控制对复杂现实信息环境中扩展搜索增强型智能体的重要性。

信息检索控制搜索增强推理

聚焦信息获取控制，涉及记忆检索机制但非核心记忆架构。

实现原生位置无关缓存需要编码器

You Need an Encoder for Native Position-Independent Caching

Shiju Zhao, Junhao Hu, Jiaqi Zheng, Guihai Chen

8/10 2026-02-02 cs.LG PDF

大语言模型（LLMs）的键值（KV）缓存基于前缀，难以高效处理任意顺序检索的上下文。位置无关缓存（PIC）虽被提出以解除位置约束并支持KV复用，但现有方法常导致显著精度下降。本文通过在主流仅解码器LLM中重新引入编码器，并显式训练其支持PIC，提出原生PIC方案。同时开发了COMB——一种兼容现有推理框架的PIC感知缓存系统。实验表明，COMB在保持相当精度的前提下，将首Token生成时间（TTFT）降低51–94%，吞吐量提升3倍，并在DeepSeek-V2-Lite-Chat上验证了其通用性。

KV缓存位置无关缓存

聚焦KV缓存优化，属LLM推理内存机制关键改进。

一种面向高效大语言模型推理的状态转移框架

A State-Transition Framework for Efficient LLM Reasoning

Liang Zhang, Yu Zhao, Longyue Wang, Tianqi Shi, Weihua Luo et al.

8/10 2026-02-01 cs.AI PDF

尽管长链式思维（CoT）推理显著提升了大语言模型（LLMs）在复杂推理任务上的性能，但生成长CoT序列带来的高昂计算与内存开销限制了其效率与实用性。现有方法通常通过压缩CoT序列提升效率，但这与测试时扩展相冲突，制约了模型的推理能力。本文提出一种高效推理框架，将LLM的推理过程建模为状态转移过程：首先利用线性注意力机制估计记录历史推理信息的“推理状态”；随后基于查询提示与该状态执行当前推理步骤并更新状态。借助线性注意力，当前步骤中的每个token可直接从状态中检索相关历史信息，无需显式关注先前步骤的token，从而将注意力计算复杂度从二次降至线性，大幅提升推理效率。此外，本文还提出基于状态的推理策略以缓解噪声推理步骤导致的过度思考问题。大量实验表明，该框架不仅提高了LLM的推理效率，还增强了其推理性能。

状态记忆高效推理

提出状态转移机制显式建模并维护历史推理信息，属于记忆机制的关键应用。

MedBeads：一种面向智能体、不可篡改的数据基底，用于构建可信医疗AI

MedBeads: An Agent-Native, Immutable Data Substrate for Trustworthy Medical AI

Takahito Nakajima

8/10 2026-02-01 cs.AI PDF

背景：截至2026年，大语言模型（LLMs）已具备专家级医学知识，但作为自主“临床智能体”部署仍受限。现有电子病历（EMR）及FHIR等标准面向人类设计，导致“上下文错配”：AI智能体接收碎片化数据，需依赖概率推理（如RAG）重建病史，易产生幻觉且难以审计。方法：我们提出MedBeads——一种面向智能体的原生数据基础设施，将临床事件表示为不可变的“珠子”（Beads），构成Merkle有向无环图（DAG）节点，并通过密码学方式引用因果前驱。该“一次写入、多次读取”架构使篡改在数学上可检测。我们实现了包含Go核心引擎、Python中间件（用于LLM集成）和React可视化界面的原型系统。结果：基于合成数据成功验证工作流；FHIR到DAG的转换将扁平资源重构为因果图；广度优先搜索（BFS）上下文检索算法以O(V+E)复杂度遍历相关子图，支持实时决策；篡改证据由设计保障；可视化通过显式因果链提升临床理解。结论：MedBeads通过从概率检索转向确定性图遍历、从可变记录转向不可变链，解决了“上下文错配”，为“可信医疗AI”提供基础。其结构化Bead格式构成高效、面向AI的“原生语言”。项目已开源以推动面向智能体的数据标准发展。

Agent Memory Immutable Data Structure

提出面向Agent的不可变数据基底，解决上下文记忆的完整性与可追溯性问题。

钥匙孔效应：为何聊天界面在数据分析中失效

The Keyhole Effect: Why Chat Interfaces Fail at Data Analysis

Mohan Reddy

8/10 2026-02-01 cs.AI PDF

聊天界面已成为AI辅助数据分析的默认交互方式，但对于多步骤、状态依赖的分析任务而言，这是一种错误选择。本文基于Woods（1984）提出的“钥匙孔效应”——即通过狭窄视口观察大型信息空间所引发的认知代价——指出聊天界面通过五种机制系统性地损害分析表现：(1)持续内容替换干扰海马体空间记忆；(2)隐藏状态变量超出工作记忆容量（负载下约4个组块）；(3)强制语言化引发言语遮蔽，削弱视觉模式识别；(4)线性文本流阻碍认知外化与探索性操作；(5)序列化惩罚随数据维度增加而加剧。作者形式化认知超载为O = max(0, m - v - W)，并提出八种混合设计模式以缓解上述问题。

认知负荷工作记忆

深入探讨工作记忆与空间记忆在Agent交互中的认知负荷机制。

HyperOffload：面向SuperNode架构的大语言模型图驱动分层内存管理

HyperOffload: Graph-Driven Hierarchical Memory Management for Large Language Models on SuperNode Architectures

Fangxin Liu, Qinghua Zhang, Hanjing Shen, Qinghua Zhang, Zhibo Liang et al.

8/10 2026-01-31 cs.DC PDF

随着大语言模型（LLMs）向长上下文推理和稀疏架构演进，其内存需求已远超单设备HBM容量。尽管新兴SuperNode架构通过高带宽互连提供TB级共享内存池，现有软件栈仍难以高效利用该硬件。本文提出SuperNode内存管理框架HyperOffload，采用编译器辅助的图驱动方法，将远程内存访问显式建模为计算图中的操作，专为分层SuperNode架构设计。该框架在编译器中间表示中引入缓存算子以表达数据移动，实现对张量生命周期与执行依赖的全局静态分析，并据此开发执行顺序优化算法，在计算密集区域隐藏远程内存延迟。在MindSpore中实现后，实验表明该方法在推理任务中最高可降低26%的峰值设备内存占用，同时保持端到端性能。

大语言模型内存管理

聚焦LLM内存管理，虽非专为Agent设计，但机制高度相关。

面向高效多智能体辩论的跨模态记忆压缩

Cross-Modal Memory Compression for Efficient Multi-Agent Debate

Jing Wu, Yue Sun, Tianpei Xie, Suiyao Chen, Jingyuan Bao et al.

8/10 2026-01-31 cs.AI PDF

多智能体辩论可提升推理质量并减少幻觉，但随着辩论轮次和智能体数量增加，上下文迅速膨胀。保留完整文本历史会导致令牌使用超出上下文限制，并常需重复摘要，带来额外开销与信息损失。本文提出DebateOCR——一种跨模态压缩框架，将冗长的文本辩论记录替换为紧凑的图像表示，并通过专用视觉编码器在后续轮次中加以利用。该方法可将通常达数万至数十万令牌的历史压缩92%以上，在多个基准上显著降低计算成本并加速推理。理论分析表明，智能体间的多样性有助于恢复被省略的信息：尽管单个压缩历史可能丢失细节，但聚合多个智能体的压缩视图可使集体表征以指数级高概率逼近信息瓶颈。

记忆压缩多智能体系统

提出跨模态记忆压缩机制，显著优化多智能体辩论中的记忆存储与使用效率。

受认知神经科学启发的分层元认知监控深度搜索

Deep Search with Hierarchical Meta-Cognitive Monitoring Inspired by Cognitive Neuroscience

Zhongxiang Sun, Qipeng Wang, Weijie Yu, Jingxuan Yang, Haolang Lu et al.

8/10 2026-01-30 cs.CL PDF

基于大语言模型的深度搜索智能体在多步检索、推理和长周期任务执行中展现出强大能力，但其实际失败常源于缺乏对不确定环境下推理与检索状态的监控与调节机制。受认知神经科学启发，人类元认知具有分层结构，结合快速异常检测与选择性触发的经验驱动反思。本文提出DS-MCM框架，在深度搜索中嵌入显式的分层元认知监控机制：包含快速一致性监控器（轻量级检查外部证据与内部推理置信度的一致性）和慢速经验驱动监控器（基于历史智能体轨迹中的经验记忆选择性激活以指导纠正干预）。该机制直接嵌入推理-检索循环，决定何时干预及如何利用先验经验指导修正。在多个深度搜索基准和主干模型上的实验表明，DS-MCM显著提升性能与鲁棒性。

Agent Memory Metacognition

论文核心引入基于经验记忆的监控机制，Memory是关键组成部分。

EvoClinician：基于测试时进化学习的自演化多轮医疗诊断智能体

EvoClinician: A Self-Evolving Agent for Multi-Turn Medical Diagnosis via Test-Time Evolutionary Learning

Yufei He, Juncheng Liu, Zhiyuan Hu, Yulin Chen, Yue Liu et al.

8/10 2026-01-30 cs.AI PDF

当前主流医疗AI采用不切实际的“一次性”诊断模式，而真实临床诊断是一个迭代过程，医生需依次提问和安排检查以高效获取信息。为此，作者提出新基准Med-Inquire，基于真实病例模拟多轮诊断，通过Patient与Examination智能体隐藏完整病历，迫使诊断智能体主动获取信息。为应对该挑战，作者设计了EvoClinician——一种在测试时自演化的智能体，其核心为“诊断-评分-演化”循环：Actor执行诊断；Process Grader评估每步操作的临床价值与资源效率；Evolver据此反馈演化Actor的提示与记忆。实验表明，EvoClinician优于持续学习基线及其他自演化智能体。

Agent Memory Medical Diagnosis

论文核心机制包含通过演化更新Agent的记忆，Memory是策略优化的关键组成部分。

大语言模型智能体并非始终忠实的自我进化者

Large Language Model Agents Are Not Always Faithful Self-Evolvers

Weixiang Zhao, Yingshuo Wang, Yichen Zhang, Yang Deng, Yanyan Zhao et al.

8/10 2026-01-30 cs.CL PDF

自我进化的大型语言模型（LLM）智能体通过积累和复用过往经验持续提升性能，但其是否真正依赖这些经验指导行为尚不明确。本文首次系统研究了自进化LLM智能体中“经验忠实度”——即智能体决策对其所获经验的因果依赖性。通过对原始与压缩形式经验进行受控因果干预，我们在10种LLM主干模型和9个环境中全面评估了四种代表性框架。研究发现显著不对称现象：智能体始终依赖原始经验，却常忽视或误读压缩经验，即使后者是唯一可用信息。该现象在单/多智能体设置及不同模型规模下均存在。根源在于压缩内容的语义局限、内部处理偏差抑制经验使用，以及预训练先验已足够应对的任务场景。结果挑战了当前自进化方法的假设，强调需更忠实可靠的经验整合机制。

经验忠实度自进化智能体

聚焦LLM Agent对经验（记忆）的依赖性与忠实度，属记忆使用机制研究。

基于大语言模型的图信息引导动作生成实现具身任务规划

Embodied Task Planning via Graph-Informed Action Generation with Large Lanaguage Model

Xiang Li, Ning Yan, Masood Mortazavi

8/10 2026-01-29 cs.CL PDF

尽管大语言模型（LLMs）展现出强大的零样本推理能力，但其作为具身智能体在长视野任务规划中仍面临根本挑战。标准LLM规划器常因上下文窗口限制或生成违反环境约束的幻觉转移而难以维持策略一致性。本文提出GiG框架，采用“图中图”架构组织智能体记忆：利用图神经网络（GNN）将环境状态编码为嵌入，并在经验记忆库中构建动作连接的执行轨迹图；通过聚类这些图嵌入，实现结构感知的先验知识检索，使当前决策能锚定于相关历史结构模式。此外，引入新颖的有界前瞻模块，结合符号转移逻辑增强基于记忆的动作投射能力。在Robotouille同步/异步及ALFWorld三个基准上，该方法以相当或更低计算成本显著超越现有最优基线。

Agent Memory Embodied Planning

提出基于图结构的经验记忆库，用于存储和检索执行轨迹，是规划中的关键记忆机制。

认知上下文学习：在基于大语言模型的多智能体系统中以正确方式建立信任

Epistemic Context Learning: Building Trust the Right Way in LLM-Based Multi-Agent Systems

Ruiwen Zhou, Maojia Song, Xiaobao Wu, Sitao Cheng, Xunjian Yin et al.

Ruiwen Zhou (National University of Singapore)

8/10 2026-01-29 cs.AI PDF

多智能体系统中的个体智能体常因盲目顺从而缺乏鲁棒性。本文指出该问题源于谄媚倾向及对同伴可靠性评估能力不足。为此，作者形式化了“历史感知引用”学习问题，将同伴的历史交互作为额外输入，使智能体能在不确定时依据可信同伴进行学习。该方法将任务从评估同伴推理质量转变为基于交互历史估计其可靠性。作者提出认知上下文学习（ECL）框架，通过显式构建同伴历史档案来调节预测，并结合强化学习与辅助奖励进行优化。实验表明，ECL使Qwen 3-4B小模型性能超越无历史感知的8倍大模型（Qwen 3-30B），并使前沿模型达到近100%准确率，且在多种多智能体配置中具有良好泛化能力。

多智能体系统信任建模

利用历史交互构建记忆以评估同伴可靠性，属记忆关键应用。

基于历史条件化多模态大语言模型的非马尔可夫多轮对话图像生成

Non-Markov Multi-Round Conversational Image Generation with History-Conditioned MLLMs

Haochen Zhang, Animesh Sinha, Felix Juefei-Xu, Haoyu Ma, Kunpeng Li et al.

Animesh Sinha (Meta)

8/10 2026-01-28 cs.CV PDF

对话式图像生成要求模型在多轮交互中遵循用户指令，并以累积的图文聊天历史为依据。现有方法多采用马尔可夫假设，仅依赖最新图像，忽略长程历史。本文提出非马尔可夫设定，支持用户回溯早期状态、撤销修改或引用多轮前引入的实体。为此，作者构建了包含回滚编辑和基于名称的跨轮个性化等非马尔可夫数据；设计了带token级缓存的历史条件化训练与推理框架，防止身份漂移；并引入基于重建的DiT解码器与多阶段微调策略，提升图像保真度与可编辑性。实验表明，该方法显著增强多轮一致性与指令遵循能力，同时保持单轮编辑性能。

多模态大语言模型对话记忆非马尔可夫交互图像生成

论文聚焦多轮对话中对历史状态的长期依赖与检索，涉及记忆机制的关键应用。

超越加速——利用KV缓存进行采样与推理

Beyond Speedup -- Utilizing KV Cache for Sampling and Reasoning

Zeyu Xing, Xing Li, Hui-Ling Zhen, Mingxuan Yuan, Sinno Jialin Pan

8/10 2026-01-28 cs.CL PDF

KV缓存通常仅用于加速自回归解码，但其编码的上下文信息可零成本复用于下游任务。本文提出将KV缓存视为一种轻量级表征，无需重新计算或存储完整隐藏状态。尽管弱于专用嵌入，KV衍生表征在两项关键应用中表现优异：(i) 嵌入链（Chain-of-Embedding），在Llama-3.1-8B-Instruct和Qwen2-7B-Instruct上达到竞争性甚至更优性能；(ii) 快/慢思维切换（Fast/Slow Thinking Switching），在Qwen3-8B和DeepSeek-R1-Distil-Qwen-14B上实现自适应推理，最多减少5.7倍的token生成，且精度损失极小。研究确立了KV缓存作为采样与推理的有效免费基底，为大语言模型推理中的表征复用开辟新方向。

KV缓存推理优化

将KV缓存作为轻量级记忆表征用于推理与采样，属记忆机制的重要应用。

Code

MALLOC：面向大规模序列推荐的内存感知长序列压缩基准

MALLOC: Benchmarking the Memory-aware Long Sequence Compression for Large Sequential Recommendation

Qihang Yu, Kairui Fu, Zhaocheng Du, Yuxuan Si, Kaiyuan Li et al.

Qihang Yu (Zhejiang UniversityHangzhouChina) | Kairui Fu (Zhejiang UniversityHangzhouChina) | Zhaocheng Du (Huawei Noah’s Ark LabHangzhouChina)

8/10 2026-01-28 cs.IR PDF

随着模型规模和数据量的增长，推荐系统面临高昂的计算开销，尤其在处理用户长行为序列时。现有方法常通过预存用户历史中间状态以避免重复计算，但忽视了由此带来的巨大内存开销。本文提出MALLOC，一个面向内存感知长序列压缩的综合基准，系统性地分类并评估适用于大规模序列推荐的内存管理技术。这些技术被集成至前沿推荐模型中，构建了一个可复现、易访问的评估平台。通过在准确性、效率与复杂度上的广泛实验，验证了MALLOC在推动大规模推荐系统发展中的整体可靠性。

序列推荐内存压缩

聚焦推荐系统中的长序列内存压缩，属Memory关键应用但非Agent核心架构。

PathWise：通过世界模型与自进化大语言模型实现自动化启发式设计的规划方法

PathWise: Planning through World Model for Automated Heuristic Design via Self-Evolving LLMs

Oguzhan Gungordu, Siheng Xiong, Faramarz Fekri

8/10 2026-01-28 cs.AI PDF

大语言模型（LLMs）已推动组合优化问题（COPs）中自动化启发式设计（AHD）的发展，但现有框架依赖固定进化规则和静态提示模板，易导致短视生成、冗余评估及推理能力不足。本文提出PathWise——一种多智能体推理框架，将启发式生成建模为在蕴含图上的序贯决策过程，该图作为紧凑且具状态性的记忆结构，记录搜索轨迹并支持跨代信息复用或规避。系统包含策略智能体规划进化动作、世界模型智能体生成条件启发式 rollout，以及批评家智能体提供路由反思以总结历史经验，从而将LLM驱动的AHD从试错式进化转向基于状态感知的规划推理。实验表明，PathWise在多种COP上更快收敛至更优启发式，兼容不同LLM主干，并可扩展至更大规模问题。

Agent Memory Automated Heuristic Design

提出基于蕴含图的状态化记忆机制，用于记录和复用搜索轨迹，是启发式生成的关键组件。

HARMONI：基于大语言模型的多模态多用户人机交互个性化框架

HARMONI: Multimodal Personalization of Multi-User Human-Robot Interactions with LLMs

Jeanne Malécot, Hamed Rahimi, Jeanne Cattoni, Marie Samson, Mouad Abrini et al.

Jeanne Malécot∗,1,2{}^{*,~1,~2}, Hamed Rahimi∗,2{}^{*,~2}, Jeanne Cattoni3, Marie Samson2, Mouad Abrini2, Mahdi Khoramshahi2, Maribel Pino3, Mohamed Chetouani2 (1Institut Curie, Université Paris-Saclay2Institute of Intelligent Systems and Robotics (ISIR), Sorbonne University3Assistance Publique – Hôpitaux de Paris (AP-HP), Université Paris CitéParisFrance)

8/10 2026-01-27 cs.RO PDF

现有人机交互系统在多用户环境中常缺乏持续个性化与动态适应机制，限制了其在现实场景中的有效性。本文提出HARMONI——一种多模态个性化框架，利用大语言模型使社交辅助机器人能够管理长期多用户交互。该框架整合四个关键模块：（i）感知模块用于识别活跃说话者并提取多模态输入；（ii）世界建模模块维护环境与短期对话上下文表示；（iii）用户建模模块更新长期说话者特定档案；（iv）生成模块产出上下文相关且符合伦理的回应。通过在四个数据集上的广泛评估、消融实验及养老院真实场景用户研究，验证了HARMONI在说话者识别、在线记忆更新和伦理对齐个性化方面的优越性，在用户建模准确性、个性化质量与用户满意度上均优于基线LLM方法。

Agent Memory 多用户交互

论文核心包含长期用户建模与在线记忆更新机制，是Agent Memory的关键应用。

ReCreate：基于经验驱动的推理与领域智能体构建

ReCreate: Reasoning and Creating Domain Agents Driven by Experience

Zhezheng Hao, Hong Wang, Jian Luo, Jianqing Zhang, Yuyan Zhou et al.

8/10 2026-01-16 cs.AI PDF

大语言模型智能体正在重塑工业格局，但多数实用智能体仍依赖人工设计，因任务差异大而成本高昂。本文提出ReCreate——一种由经验驱动的自动领域智能体构建框架，系统性地利用智能体交互历史，从中提取成功或失败的原因及改进路径。该框架引入“智能体即优化器”范式，包含三大组件：按需调用的经验存储与检索机制、将执行经验映射为脚手架编辑的推理-创建协同流水线，以及将实例级细节抽象为可复用领域模式的分层更新策略。实验表明，ReCreate在多个领域中优于人工设计及现有自动化方法，即使从极简初始脚手架出发亦表现优异。

Agent Memory Automated Agent Creation

论文核心利用交互历史（即经验记忆）驱动Agent创建与优化，涉及记忆存储、检索与抽象机制。

虚假奖励悖论：从机制上理解RLVR如何激活大语言模型中的记忆捷径

Spurious Rewards Paradox: Mechanistically Understanding How RLVR Activates Memorization Shortcuts in LLMs

Lecheng Yan, Ruizhe Li, Guanhua Chen, Qing Li, Jiahui Geng et al.

8/10 2026-01-16 cs.LG PDF

基于可验证奖励的强化学习（RLVR）虽能有效提升大语言模型的推理能力，但近期研究表明，即使使用虚假或错误的奖励，如Qwen 2.5等模型仍能获得显著性能提升。本文发现这一现象背后存在“困惑度悖论”：虚假RLVR导致答案词元的困惑度下降，但提示侧的语义连贯性却退化，表明模型倾向于绕过推理而依赖记忆。通过路径修补、Logit Lens、JSD分析和神经微分方程，作者识别出一个隐藏的“锚点-适配器”回路：中层（L18–20）的功能锚点触发记忆检索，后续层（L21+）的结构适配器则调整表征以适应该捷径信号。进一步实验表明，调控该回路中特定MLP键可实现对污染驱动性能的双向因果干预。本研究为识别与缓解RLVR调优模型中的数据污染提供了机制性路线图。

Agent Memory Mechanistic Interpretability

论文揭示LLM在RLVR中通过记忆捷径绕过推理，深入分析记忆激活机制。

Code

LOOKAT：面向内存高效Transformer的查找优化键注意力机制

LOOKAT: Lookup-Optimized Key-Attention for Memory-Efficient Transformers

Aryan Karmore

8/10 2026-01-15 cs.LG PDF

在边缘设备部署大语言模型需压缩KV缓存。现有量化方法虽减少存储，但因注意力计算前需将INT4/INT8键反量化为FP16，未能降低带宽开销。本文指出注意力评分等价于内积相似性搜索，可借鉴向量数据库压缩技术。提出LOOKAT方法，通过乘积量化与非对称距离计算，将键向量分解为子空间、学习码本，并利用查找表计算注意力，使注意力计算从内存受限转为计算受限。在GPT-2上实现64倍压缩（输出保真度95.7%）和32倍压缩（95.0%），无需修改架构或重新训练，且保持排名相关性ρ>0.95。理论分析表明相关性退化率为O(d_k/mK)，在序列长度达1024时仍有效。

KV缓存压缩内存高效推理

聚焦KV缓存压缩，属LLM推理内存优化，与Agent Memory密切相关但非专为Agent设计。

由大语言模型驱动的角色扮演智能体：现状、挑战与未来趋势

Role-Playing Agents Driven by Large Language Models: Current Status, Challenges, and Future Trends

Ye Wang, Jiaxing Chen, Hongjiang Xiao

8/10 2026-01-15 cs.CL PDF

近年来，随着大语言模型（LLMs）的快速发展，角色扮演语言智能体（RPLAs）成为自然语言处理与人机交互交叉领域的研究热点。本文系统综述了RPLAs的发展现状与关键技术，梳理了从早期基于规则的模板范式，经由语言风格模仿阶段，到以人格建模与记忆机制为核心的认知模拟阶段的技术演进路径。文章总结了支撑高质量角色扮演的关键技术路径，包括基于心理量表的角色建模、记忆增强的提示机制，以及基于动机-情境的行为决策控制。在数据层面，分析了角色专用语料库构建的方法与挑战；在评估方面，整理了涵盖角色知识、人格保真度、价值对齐与交互幻觉的多维评估框架及基准数据集。最后，展望了人格演化建模、多智能体协同叙事、多模态沉浸式交互及与认知神经科学融合等未来方向。

角色扮演智能体记忆增强提示

论文将记忆机制作为角色扮演智能体认知模拟阶段的核心组成部分，并探讨记忆增强提示等关键技术。

Sparse-RL：通过稳定稀疏轨迹突破大语言模型强化学习中的内存墙

Sparse-RL: Breaking the Memory Wall in LLM Reinforcement Learning via Stable Sparse Rollouts

Sijia Luo, Xiaokang Zhang, Yuxuan Hu, Bohan Zhang, Ke Wang et al.

8/10 2026-01-15 cs.LG PDF

强化学习（RL）已成为激发大语言模型（LLM）复杂推理能力的关键手段。然而，在长周期轨迹生成过程中存储键值（KV）缓存带来的巨大内存开销，成为在有限硬件上高效训练的主要瓶颈。现有KV压缩技术虽适用于推理阶段，但直接用于RL训练会引发严重的策略不匹配，导致性能崩溃。为此，本文提出Sparse-RL，通过稀疏感知拒绝采样与基于重要性的重加权机制，校正因压缩导致的信息损失所引入的离策略偏差，从而实现稳定训练。实验表明，Sparse-RL在显著降低轨迹内存开销的同时保持了模型性能，并天然支持稀疏推理部署，提升模型鲁棒性。

LLM Agent Memory 强化学习

聚焦KV缓存压缩对RL训练的影响，属LLM Agent内存效率关键问题。

SPRInG：通过选择性参数适应与检索插值生成实现大语言模型的持续个性化

SPRInG: Continual LLM Personalization via Selective Parametric Adaptation and Retrieval-Interpolated Generation

Seoyeon Kim, Jaehyung Kim

8/10 2026-01-15 cs.AI PDF

大语言模型的个性化通常依赖静态检索或一次性适应，假设用户偏好恒定不变。然而，真实交互中用户兴趣持续演化，模型需在避免灾难性遗忘的同时适应偏好漂移。现有持续学习方法常因无差别更新噪声交互而失效，难以区分真实偏好变化与临时上下文。为此，本文提出SPRInG——一种新型半参数化持续个性化框架。训练阶段采用基于似然评分的漂移驱动选择性适应机制，仅在高新颖性交互上更新用户特定适配器，并将难学残差存入回放缓冲区；推理阶段通过严格相关性门控，结合参数化知识与检索历史进行logit插值。在长文本个性化生成基准上的实验表明，SPRInG显著优于现有基线，验证了其在现实持续个性化场景中的鲁棒性。

持续学习个性化半参数化记忆偏好漂移

论文聚焦持续个性化中的记忆机制，结合参数与检索记忆应对偏好漂移。

通过上下文页面实现检索增强生成的结构化知识表示

Structured Knowledge Representation through Contextual Pages for Retrieval-Augmented Generation

Xinze Li, Zhenghao Liu, Haidong Xin, Yukun Yan, Shuo Wang et al.

8/10 2026-01-14 cs.CL PDF

检索增强生成（RAG）通过引入外部知识提升大语言模型（LLM）性能。近期研究将迭代知识累积机制融入RAG，以逐步积累并优化与查询相关的知识，但缺乏连贯的组织结构，限制了知识表示的完整性与一致性。为此，本文提出PAGER——一种面向RAG的页面驱动自主知识表示框架。PAGER首先引导LLM为给定问题构建包含多个知识维度槽位的结构化认知提纲，随后迭代检索并精炼相关文档以填充各槽位，最终形成一个连贯的上下文页面，用以指导答案生成。在多个知识密集型基准和主干模型上的实验表明，PAGER显著优于现有RAG方法。进一步分析显示，其构建的知识表示质量更高、信息更密集，能更有效缓解知识冲突，并提升LLM对外部知识的利用效率。

检索增强生成结构化记忆知识表示大语言模型

提出结构化知识表示框架，用于迭代构建和组织外部记忆，是Agent Memory的关键组成部分。

Code

面向长期任务的智能体：在动态环境中主动维持长期意图

Long-term Task-oriented Agent: Proactive Long-term Intent Maintenance in Dynamic Environments

Qinglong Shi, Donghai Wang, Hantao Zhou, Jiguo Li, Jun Xu et al.

8/10 2026-01-14 cs.AI PDF

当前大语言模型智能体主要采用被动响应范式，难以在动态环境中维持用户长期意图并自适应调整。本文提出一种主动式任务导向智能体新范式，通过两项核心能力实现：（i）基于对话历史自主构建触发条件的意图条件监控；（ii）在检测到有益环境更新时主动与用户交互。为此，我们构建了高质量数据合成流程，生成动态环境下的复杂多轮对话数据，并提出新基准ChronosBench以弥补动态任务导向交互评估标准的缺失。实验表明，现有主流模型在此类长期任务中表现不足，而基于合成数据微调的模型在包含用户意图变化的复杂任务上达到85.19%的任务完成率，验证了所提数据驱动策略的有效性。

Agent Memory Proactive Interaction

论文聚焦长期意图维护，涉及记忆机制以支持主动监控与环境适应。

PrivacyReasoner：大语言模型能否模拟类人的隐私心智？

PrivacyReasoner: Can LLM Emulate a Human-like Privacy Mind?

Yiwen Tu, Xuan Liu, Lianhui Qin, Haojian Jin

8/10 2026-01-14 cs.AI PDF

本文提出PRA，一种用于模拟个体用户如何基于现实新闻形成隐私关切的人工智能代理设计。区别于群体层面的情感分析，PRA融合隐私理论与认知理论，利用用户历史评论和上下文线索构建其个性化的“隐私心智”。该代理通过模拟有限理性的上下文过滤器动态激活相关隐私记忆，并生成反映用户在新隐私场景下可能反应的合成评论。研究还引入一个经校准的LLM-as-a-Judge评估器，依据既定隐私关切分类体系量化生成推理的忠实度。在Hacker News真实讨论数据上的实验表明，PRA在隐私关切预测上优于基线代理，并能跨AI、电商和医疗等领域迁移推理模式。

隐私推理记忆建模

论文核心机制依赖隐私记忆的动态激活与重构，属Agent Memory关键应用。

BackdoorAgent：面向基于大语言模型智能体的后门攻击统一框架

BackdoorAgent: A Unified Framework for Backdoor Attacks on LLM-based Agents

Yunhao Feng, Yige Li, Yutao Wu, Yingshui Tan, Yanming Guo et al.

8/10 2026-01-08 cs.AI PDF

大语言模型（LLM）智能体通过结合规划、记忆和工具使用的多步工作流执行任务，这种设计虽提升了自主性，却也扩大了后门威胁的攻击面。针对现有研究碎片化、缺乏对跨阶段后门触发机制系统理解的问题，本文提出BackdoorAgent——一个模块化、阶段感知的统一框架，从智能体中心视角结构化分析规划攻击、记忆攻击和工具使用攻击三类功能阶段。该框架支持对触发器在不同阶段间激活与传播的系统性研究，并构建了涵盖Agent QA、Agent Code、Agent Web和Agent Drive四大典型应用的标准化基准。实验表明，单阶段植入的触发器可在多步中持续存在并传播，其中记忆攻击在GPT基座模型上触发持久率达77.97%，凸显智能体工作流对后门威胁的脆弱性。

LLM Agent Memory Attack

论文将记忆攻击作为三大核心攻击阶段之一，系统分析其在Agent工作流中的触发与传播机制。

Mind2Report：面向专家级商业报告合成的认知深度研究智能体

Mind2Report: A Cognitive Deep Research Agent for Expert-Level Commercial Report Synthesis

Mingyue Cheng, Daoyu Wang, Qi Liu, Shuo Yu, Xiaoyu Tao et al.

8/10 2026-01-08 cs.CL PDF

从海量且嘈杂的网络信息中合成高质量商业报告对高风险商业决策至关重要。尽管现有深度研究智能体已取得显著进展，其生成报告在质量、可靠性和覆盖范围方面仍显不足。本文提出Mind2Report——一种模拟商业分析师的认知深度研究智能体，通过细粒度意图探测、动态网络检索与信息即时记录，并迭代合成报告。该系统采用无需训练的智能体工作流，为通用大语言模型（LLMs）引入动态记忆机制，以支持长篇幅认知任务。作者构建包含200个真实商业任务的QRC-Eval评测集，并设计综合评估策略。实验表明，Mind2Report优于OpenAI和Gemini等主流深度研究智能体。

Agent Memory Dynamic Memory

提出动态记忆机制支持长程认知过程，是报告生成的关键组件。

Code

智能体漂移：量化多智能体大语言模型系统在长期交互中的行为退化

Agent Drift: Quantifying Behavioral Degradation in Multi-Agent LLM Systems Over Extended Interactions

Abhishek Rath

8/10 2026-01-07 cs.AI PDF

多智能体大语言模型（LLM）系统已成为复杂任务分解与协作求解的强大架构，但其长期行为稳定性尚未得到充分研究。本文提出“智能体漂移”概念，指智能体在长期交互中行为、决策质量及相互一致性逐渐退化的现象，并构建包含语义漂移、协调漂移和行为漂移的理论框架。作者设计了涵盖12个维度的智能体稳定性指数（ASI）以量化漂移，并通过仿真分析揭示其对任务准确率和人工干预需求的负面影响。为缓解该问题，论文提出三种策略：情景记忆巩固、漂移感知路由协议和自适应行为锚定，理论分析表明这些方法可显著降低漂移错误并维持系统吞吐量。

agent drift episodic memory consolidation

提出情景记忆巩固作为缓解策略，Memory是关键组成部分。

仓灵-知流：面向综合遥感应用的统一知识与流程融合智能体

CangLing-KnowFlow: A Unified Knowledge-and-Flow-fused Agent for Comprehensive Remote Sensing Applications

Zhengchao Chen, Haoran Wang, Jing Yao, Pedram Ghamisi, Jun Zhou et al.

8/10 2025-12-17 cs.AI PDF

针对遥感数据处理缺乏统一端到端智能框架的问题，本文提出CangLing-KnowFlow，融合程序性知识库（PKB）、动态工作流调整机制与进化记忆模块。该系统基于1,008个专家验证的工作流案例指导任务规划，显著减少大模型幻觉；在运行失败时可自主诊断并重规划，其进化记忆模块持续从经验中学习，迭代提升性能。在包含324个工作流的新基准KnowFlow-Bench上，该方法在13种主流大模型上均优于Reflexion基线至少4%的任务成功率，展示了将专家知识转化为可适应、可验证流程的强大潜力。

Agent Memory Remote Sensing

提出进化记忆模块，是系统关键组件但非唯一焦点

推荐系统：当记忆至关重要时

Recommender systems: when memory matters

Aleksandra Burashnikova, Marianne Clausel, Massih-Reza Amini, Yury Maximov, Nicolas Dante

8/10 2021-12-04 cs.IR PDF

本文研究了长时记忆在包含用户隐式反馈的序列推荐系统可学习性中的作用。我们提出一种在线算法，其模型参数按用户逐块更新，每一块由一系列未点击项目后接一个点击项目构成。通过全面的实证评估表明，根据用户与系统交互中所包含的长时记忆程度进行筛选，可显著提升MAP和NDCG指标性能，尤其在大规模推荐系统训练场景下效果更为突出。

推荐系统长时记忆

聚焦用户交互中的长时记忆对推荐系统性能的影响，属记忆机制应用研究。

Avenir-Web：基于人类经验模仿的多模态网页智能体与混合定位专家系统

Avenir-Web: Human-Experience-Imitating Multimodal Web Agents with Mixture of Grounding Experts

Aiden Yiliu Li, Xinyue Hao, Shilong Liu, Mengdi Wang

7/10 2026-02-02 cs.AI PDF

尽管多模态大语言模型取得进展，自主网页智能体在复杂动态网页界面上执行长周期任务仍面临挑战。现有方法常受限于元素定位不准、缺乏站点特定流程知识，以及在复杂DOM结构中长期任务跟踪与记忆不稳定。为此，本文提出Avenir-Web，在真实部署环境下于Online-Mind2Web基准上达到开源新SOTA。该系统结合混合定位专家、经验模仿规划以引入流程先验，并采用任务追踪清单与自适应记忆机制，实现跨多样化用户界面的鲁棒交互。实验表明，Avenir-Web显著优于先前开源智能体，性能媲美顶尖闭源模型。

Agent Memory Web Agents

提出自适应记忆机制用于长期任务跟踪，是关键但非唯一核心。

ReasonCACHE：在不更新权重的情况下教会大语言模型推理

ReasonCACHE: Teaching LLMs To Reason Without Weight Updates

Sharut Gupta, Phillip Isola, Stefanie Jegelka, David Lopez-Paz, Kartik Ahuja et al.

7/10 2026-02-02 cs.LG PDF

大语言模型（LLMs）能否仅通过上下文学习（ICL）而无需任何权重更新来掌握推理能力？尽管ICL样本效率高，但在复杂推理任务中需大量示例，而简单扩展上下文会因注意力成本剧增、性能饱和或下降而失效。本文提出ReasonCACHE，利用前缀调优将示例蒸馏为固定键值缓存，在不占用上下文窗口且不更新模型权重的前提下实现高效推理。在GPQA-Diamond等挑战性基准上，其性能优于标准ICL，并媲美甚至超越基于权重更新的方法，同时在数据效率、推理开销和可训练参数数量上更具优势。理论上，ReasonCACHE比低秩权重更新更具表达能力，因其绕过了输入秩对表达力的限制。

in-context learning key-value cache

提出基于固定KV缓存的推理机制，涉及记忆存储与检索，但非以Agent Memory为核心目标。

TIDE：基于轨迹的大语言模型智能体测试时改进诊断评估

TIDE: Trajectory-based Diagnostic Evaluation of Test-Time Improvement in LLM Agents

Hang Yan, Xinyu Che, Fangzhi Xu, Qiushi Sun, Zichen Ding et al.

7/10 2026-02-02 cs.AI PDF

近期自主大语言模型（LLM）智能体展现出通过与环境迭代交互提升性能的能力，本文将其定义为“测试时改进”（Test-Time Improvement, TTI）。然而，TTI成功或失败的内在机制尚不明确，现有评估指标难以刻画任务优化效率、错误行为后的适应能力，以及工作记忆对任务完成的具体效用。为此，本文提出TIDE（Test-time Improvement Diagnostic Evaluation）框架，该框架与智能体和环境无关，将TTI分解为三个相互关联的维度：(1)任务完成的整体时间动态，(2)性能是否受限于递归循环行为，(3)是否受累于累积记忆负担。大量实验表明，提升智能体性能不仅依赖内部推理扩展，更需显式优化智能体与环境的交互动态。

Agent Memory Test-Time Improvement

论文聚焦TTI评估，将工作记忆作为关键维度之一进行分析。

线性注意力大语言模型中的状态秩动态

State Rank Dynamics in Linear Attention LLMs

Ao Sun, Hongtao Zhang, Heng Zhou, Yixuan Ma, Yiran Qin et al.

7/10 2026-02-02 cs.LG PDF

线性注意力大语言模型（LLMs）通过将上下文压缩为固定大小的状态矩阵，提供了一种高效的循环推理形式，实现常数时间推理。然而，该压缩状态的内部动态尚不清晰。本文对当前先进线性注意力模型的运行时状态动态进行了系统研究，揭示了一种称为“状态秩分层”的基本现象：不同注意力头在谱特性上呈现明显分化——一组头的有效秩趋近于零并持续振荡，另一组则迅速增长并收敛至上界。大量实验表明，这种动态在不同推理场景下高度一致，说明头的低秩或高秩属性是预训练阶段获得的固有结构特征，而非输入依赖的瞬态表现。进一步分析发现，低秩头对模型推理至关重要，而高秩头则具有显著冗余。基于此，作者提出联合秩范数剪枝策略，在零样本设置下减少38.9%的KV缓存开销，同时基本保持模型精度。

线性注意力状态压缩 KV缓存优化模型剪枝

研究线性注意力LLM的内部状态动态，涉及上下文压缩与KV缓存，属记忆机制关键部分。

通过背景故事的多步推理编辑知识，而不仅是事实

Edit Knowledge, Not Just Facts via Multi-Step Reasoning over Background Stories

Ya Gao, Kalle Kujanpää, Pekka Marttinen, Harri Valpola, Alexander Ilin

7/10 2026-02-02 cs.AI PDF

使人工智能系统（尤其是大语言模型）能够整合新知识并在推理中灵活应用，仍是一项核心挑战。现有知识编辑方法侧重于原子事实，虽提升事实回忆能力，却难以将新信息融入可跨情境使用的连贯框架。本文认为知识内化本质上是推理问题而非记忆问题，因此提出一种基于三原则的训练策略：首先，以连贯的背景故事引入新知识；其次，利用模型自生成的多跳问题进行多步推理训练；最后，通过知识蒸馏使学生模型在无法访问新信息的情况下内化教师的推理行为。实验表明，该策略能有效支持模型在推理中利用新知识，并在需融合多个新事实的复杂问题上表现卓越。

知识编辑多步推理

聚焦知识内化与推理，涉及记忆整合但非直接研究记忆机制。

FlyPrompt：受脑启发的随机扩展路由与时间集成专家用于通用持续学习

FlyPrompt: Brain-Inspired Random-Expanded Routing with Temporal-Ensemble Experts for General Continual Learning

Hongwei Yan, Guanglong Sun, Kanglei Zhou, Qian Li, Liyuan Wang et al.

7/10 2026-02-02 cs.LG PDF

通用持续学习（GCL）要求智能系统在无明确任务边界、单次遍历的非平稳数据流中持续学习。现有基于预训练模型的参数高效微调方法通常依赖多轮训练和显式任务提示，难以适用于GCL场景，且缺乏对专家参数分配与表征能力提升的针对性设计。受果蝇具有稀疏扩展与模块化集成特性的分层记忆系统启发，本文提出FlyPrompt框架，将GCL分解为专家路由与专家能力提升两个子问题，引入随机扩展的解析路由器实现样本级专家激活，并采用输出头的时间集成动态调整决策边界。实验表明，FlyPrompt在CIFAR-100、ImageNet-R和CUB-200上分别超越当前最优基线达11.23%、12.43%和7.62%。

持续学习脑启发架构

受果蝇分层记忆系统启发，提出专家路由与集成机制，涉及记忆结构但非LLM Agent核心记忆研究。

打破静态图：面向鲁棒检索增强生成的上下文感知遍历方法

Breaking the Static Graph: Context-Aware Traversal for Robust Retrieval-Augmented Generation

Kwun Hang Lau, Fangyuan Zhang, Boyu Ruan, Yingli Zhou, Qintian Guo et al.

7/10 2026-02-02 cs.CL PDF

近期检索增强生成（RAG）研究从简单向量相似性转向结构感知方法，如HippoRAG，利用知识图谱（KG）和个性化PageRank捕捉多跳依赖。然而，此类方法存在“静态图谬误”：其转移概率在索引阶段固定，忽视了边相关性对查询的依赖性，导致语义漂移，使随机游走偏向高连接度“枢纽”节点，难以获取完整证据链。为此，本文提出CatRAG——一种上下文感知遍历框架，在HippoRAG 2基础上将静态KG转化为查询自适应导航结构，通过符号锚定、查询感知动态边权重调整及关键事实段落权重增强三项机制引导随机游走。在四个多跳基准上的实验表明，CatRAG显著提升推理完整性，有效弥合部分上下文检索与全证据链推理之间的差距。

检索增强生成知识图谱多跳推理上下文感知

论文聚焦RAG中的检索机制，涉及记忆结构的动态构建与利用，但未直接研究Agent Memory架构。

视觉语言模型引导的经验回放

VLM-Guided Experience Replay

Elad Sharony, Tom Jurgenson, Orr Krupnik, Dotan Di Castro, Shie Mannor

7/10 2026-02-02 cs.LG PDF

近期大语言模型（LLMs）与视觉语言模型（VLMs）的发展为强化学习（RL）带来了强大的语义与多模态推理能力，有助于提升样本效率、高层规划与可解释性。尽管已有研究将LLMs和VLMs集成到RL的多个组件中，但作为存储与重用经验的核心组件——经验回放缓冲区仍未被充分探索。本文提出利用VLM指导回放缓冲区中经验的优先级排序，核心思想是使用一个冻结的预训练VLM（无需微调）作为自动评估器，识别并优先选择智能体经验中的高潜力子轨迹。在涵盖游戏与机器人、离散与连续动作空间的多种场景中，采用该方法的智能体相比现有方法平均成功率提升11–52%，样本效率提高19–45%。

经验回放视觉语言模型

聚焦经验回放缓冲区的优先级机制，属记忆管理关键环节。

COMI：基于边际信息增益的由粗到精上下文压缩方法

COMI: Coarse-to-fine Context Compression via Marginal Information Gain

Jiwei Tang, Shilei Liu, Zhicheng Zhang, Yujin Yuan, Libin Zheng et al.

7/10 2026-02-02 cs.CL PDF

大语言模型（LLMs）在多种任务中表现出色，但在长上下文场景中仍受限于计算低效与信息冗余。本文提出COMI——一种由粗到精的自适应上下文压缩框架，在高压缩率下联合优化语义相关性与多样性。我们引入边际信息增益（MIG）指标，定义为文本单元对查询的相关性减去其与其他单元的语义冗余，以此指导保留高相关、低冗余信息。该框架包含两个阶段：(1) 粗粒度分组重分配，依据组间MIG动态分配压缩率；(2) 细粒度词元融合，基于组内MIG加权合并词元以保留关键语义。在多个问答与摘要数据集上的实验表明，COMI显著优于现有方法，例如在NaturalQuestions上使用Qwen2-7B、32倍压缩下Exact Match提升约25个百分点。

上下文压缩长上下文建模

聚焦上下文压缩以提升LLM长程记忆效率，属记忆相关关键技术。

S1-NexusAgent：面向多学科科学研究的自进化智能体框架

S1-NexusAgent: a Self-Evolving Agent Framework for Multidisciplinary Scientific Research

S1-NexusAgent Team

7/10 2026-02-02 cs.AI PDF

现代科学研究依赖大规模数据、复杂工作流和专业工具，现有大语言模型及工具型智能体因长期规划能力弱、目标维持不稳及缺乏持续学习机制而难以胜任。本文提出S1-NexusAgent——一种面向多学科科研的自进化智能体框架。该框架采用分层的Plan-and-CodeAct执行范式，通过双循环架构解耦全局科研规划与子任务级工具执行，支持Model Context Protocol（MCP），集成数千种跨学科科研工具，并通过意图感知的动态工具检索与热插拔机制实现异构工具高效编排。针对科研场景中的长上下文与大数据挑战，引入基于对象引用的稀疏上下文管理，实现子任务上下文隔离与中间结果压缩。在此基础上，Critic Agent自动评估完整执行轨迹，提炼高质量科研路径为可复用的“科学技能”，形成持续自进化闭环。在生物、化学和材料科学等权威长周期科研基准上的实验表明，S1-NexusAgent达到最先进性能。

Agent Memory Scientific AI

提出基于对象引用的稀疏上下文管理机制，涉及中间结果压缩与子任务上下文隔离，属于记忆相关技术。

迈向多模态大语言模型中的认知超感知

Toward Cognitive Supersensing in Multimodal Large Language Model

Boyi Li, Yifan Shen, Yuanzhe Liu, Yifan Xu, Jiateng Liu et al.

7/10 2026-02-02 cs.CV PDF

多模态大语言模型（MLLMs）在开放词汇感知任务中表现卓越，但在解决需抽象视觉细节和视觉记忆的复杂认知问题时仍显不足。现有方法主要在文本空间扩展思维链（CoT）推理，忽视了类人视觉空间画板与视觉心像机制。为此，本文提出“认知超感知”训练范式，通过引入潜在视觉心像预测（LVIP）头，联合学习视觉认知潜在嵌入序列并将其与答案对齐，构建基于视觉的内部推理链。进一步采用强化学习优化基于该视觉潜在表示的文本推理路径。作者还构建了CogSense-Bench评测基准，涵盖五个认知维度。实验表明，该方法显著优于现有基线，并在域外数学与科学VQA任务中展现更强泛化能力，表明内部视觉心像可能是连接感知识别与认知理解的关键。

视觉心像多模态大语言模型

提出视觉心像机制，模拟人类视觉记忆，但未直接研究Agent Memory架构。

A-MapReduce：通过智能体MapReduce执行宽范围搜索

A-MapReduce: Executing Wide Search via Agentic MapReduce

Mingju Chen, Guibin Zhang, Heng Chang, Yuchen Guo, Shiji Zhou

7/10 2026-02-01 cs.MA PDF

当前基于大语言模型（LLM）的多智能体系统在强调迭代式、垂直结构信息检索的深度研究任务中表现优异，但在面向大规模、广度优先的宽范围搜索任务中，现有以序列化垂直推理为主的智能体框架难以高效应对。为此，本文提出A-MapReduce，一种受MapReduce范式启发的多智能体执行框架，将宽搜索重构为水平结构的检索问题。该框架通过任务自适应分解与结构化结果聚合实现并行处理，并利用经验记忆驱动查询条件下的任务分配与重组持续演化，从而在大规模宽搜索场景中实现渐进式性能提升。在五个智能体基准上的实验表明，A-MapReduce不仅性能领先，且具备更优的成本效益与执行效率。

Agent Memory Wide Search

论文利用经验记忆优化任务分配与重组，是宽搜索性能提升的关键机制。

通过合成语义信息增益奖励优化基于检索的智能体推理

Optimizing Agentic Reasoning with Retrieval via Synthetic Semantic Information Gain Reward

Senkang Hu, Yong Dai, Yuzhi Zhao, Yihang Tao, Yu Guo et al.

7/10 2026-01-31 cs.AI PDF

智能体推理使大型推理模型（LRMs）能够动态获取外部知识，但检索过程的优化仍因缺乏密集且原则性的奖励信号而具有挑战性。本文提出InfoReasoner框架，通过合成语义信息增益奖励激励高效的信息搜寻。理论上，我们将信息增益重新定义为模型信念状态的不确定性减少，并证明其具备非负性、望远镜可加性与信道单调性等性质。实践中，为避免依赖人工标注的检索数据，我们设计了一种输出感知的内生估计器，利用双向文本蕴涵进行语义聚类，直接从模型输出分布计算信息增益。该内生奖励引导策略最大化认知进展，并通过群组相对策略优化（GRPO）实现高效训练。在七个问答基准上的实验表明，InfoReasoner显著优于强基线检索增强方法，平均准确率最高提升5.4%。

智能体推理信息检索强化学习语义表示

聚焦检索优化与信息获取，涉及记忆机制但非核心研究。

DETOUR：面向双智能体搜索与推理的交互式基准

DETOUR: An Interactive Benchmark for Dual-Agent Search and Reasoning

Li Siyan, Darshan Deshpande, Anand Kannappan, Rebecca Qian

7/10 2026-01-30 cs.CL PDF

人类在对话中回忆信息时常需多轮交互才能完成“话到嘴边”的检索过程，而现有智能体评估基准多局限于单轮设定。为更真实地模拟此类记忆检索场景，本文提出基于模糊与欠指定检索的双智能体评估基准DETOUR（Dual-agent based Evaluation Through Obscure Under-specified Retrieval），包含1,011个提示。该基准设有一个被评估的主智能体（Primary Agent）和一个在所有评估中保持一致的记忆智能体（Memory Agent），主智能体需通过查询后者来识别目标实体。实验表明，当前最先进的模型在涵盖文本、图像、音频和视频的多模态任务上仅达到36%的准确率，凸显了提升智能体在欠指定情境下记忆与推理能力的重要性。

Agent Memory Interactive Retrieval

提出双智能体记忆交互框架，Memory Agent作为稳定记忆源，是任务关键组件。

EHR-RAG：通过增强型检索增强生成连接长时程结构化电子健康记录与大语言模型

EHR-RAG: Bridging Long-Horizon Structured Electronic Health Records and Large Language Models via Enhanced Retrieval-Augmented Generation

Lang Cao, Qingyu Chen, Yue Guo

7/10 2026-01-29 cs.AI PDF

电子健康记录（EHR）提供了丰富的纵向临床证据，对医疗决策至关重要，促使研究者采用检索增强生成（RAG）来增强大语言模型（LLM）的预测可靠性。然而，长时程EHR常超出LLM上下文限制，现有方法多依赖截断或简单检索策略，易丢失临床相关事件及时间依赖性。为此，本文提出EHR-RAG框架，专为准确解读长时程结构化EHR数据设计，包含三个核心组件：事件与时间感知的混合EHR检索、自适应迭代检索，以及双路径证据检索与推理。在四项长时程EHR预测任务上的实验表明，EHR-RAG显著优于最强LLM基线，平均Macro-F1提升10.76%。

检索增强生成电子健康记录

论文聚焦于长时程EHR数据的检索增强机制，涉及信息保留与动态访问，属记忆相关应用。

A2RAG：面向成本感知与可靠推理的自适应智能体图检索

A2RAG: Adaptive Agentic Graph Retrieval for Cost-Aware and Reliable Reasoning

Jiate Liu, Zebin Chen, Shaobo Qiao, Mingchen Ju, Danting Zhang et al.

7/10 2026-01-29 cs.IR PDF

图检索增强生成（Graph-RAG）通过将语料组织为知识图谱并利用关系结构路由证据，提升多跳问答性能。然而实际部署面临两大瓶颈：一是混合难度查询下统一检索策略导致成本浪费或性能不足；二是图抽象过程丢失源文本中的细粒度限定信息。本文提出A2RAG，一种自适应且具智能体特性的GraphRAG框架，结合自适应控制器（仅在必要时触发针对性精炼）与智能体检索器（逐步提升检索强度并将图信号映射回原始文本），以应对提取损失和图谱不完整问题。在HotpotQA和2WikiMultiHopQA上的实验表明，A2RAG在Recall@2指标上分别提升9.9和11.8个百分点，同时将token消耗与端到端延迟降低约50%。

检索增强生成智能体记忆

涉及检索增强生成中的记忆机制，但聚焦于图检索与成本控制。

DeepSearchQA：弥合深度研究智能体的全面性差距

DeepSearchQA: Bridging the Comprehensiveness Gap for Deep Research Agents

Nikita Gupta, Riju Chatterjee, Lukas Haas, Connie Tao, Andrew Wang et al.

Nikita Gupta (Equal Contribution) | Riju Chatterjee (Equal Contribution) | Lukas Haas (Equal Contribution)

7/10 2026-01-28 cs.CL PDF

本文提出DeepSearchQA，一个包含900个提示的基准测试，用于评估智能体在17个不同领域中执行复杂多步信息检索任务的能力。该基准聚焦于生成详尽答案列表所需的系统性搜索规划，明确考察三项关键但常被忽视的能力：跨异构来源的信息系统整合、去重与实体消歧以确保精确性，以及在开放搜索空间中对停止条件的推理能力。任务设计为因果链结构，要求智能体在长时程规划中保持上下文记忆。评估显示，当前先进智能体架构在召回率与精确率之间难以平衡，普遍存在过早终止或过度泛化等失败模式。

智能体记忆信息检索

强调长程上下文保留与信息整合，涉及记忆机制但非核心主题

具备顺序计划反思与候选交叉的深度研究员（Deep Researcher Reflect Evolve）

Deep Researcher with Sequential Plan Reflection and Candidates Crossover (Deep Researcher Reflect Evolve)

Saurav Prateek

7/10 2026-01-28 cs.AI PDF

本文提出一种新型深度研究员架构，旨在生成博士级复杂主题的详尽研究报告，以克服并行扩展范式的固有局限。该系统包含两大创新：基于反思的顺序研究计划精炼机制和候选交叉算法。前者通过维护集中化的全局研究上下文，使智能体能在运行时回溯进展、推理并动态调整研究计划；后者则利用多个参数各异的大语言模型候选者探索更广搜索空间，并融合其发现以生成高事实密度的统一报告。在DeepResearch Bench基准上，该架构以46.21分超越现有主流深度研究智能体，验证了顺序扩展范式优于并行自一致性方法。

Agent Memory Sequential Planning

论文提出全局研究上下文机制，涉及运行时记忆维护与回溯，属Agent Memory关键应用。

语言模型中的线性表征在对话过程中可能发生剧烈变化

Linear representations in language models can change dramatically over a conversation

Andrew Kyle Lampinen, Yuxuan Li, Eghbal Hosseini, Sangnie Bhardwaj, Murray Shanahan

Andrew Kyle Lampinen (DeepMind)

7/10 2026-01-28 cs.CL PDF

语言模型的表征常包含对应高层概念的线性方向。本文研究这些表征在（模拟）对话上下文中的动态演化，发现线性表征在对话过程中可能发生显著变化：例如，对话初期被表征为事实的信息，在结尾可能被表征为非事实，反之亦然。此类变化具有内容依赖性——与对话相关的信息表征易变，而通用信息通常保持稳定。该现象在不同模型家族和网络层中均稳健存在，且即使重放由其他模型生成的对话脚本也能复现。然而，在明确标记为科幻故事的上下文中，此类适应效应显著减弱。此外，沿表征方向进行干预在对话不同阶段效果差异显著。结果表明，模型可能根据对话所提示的角色动态调整其内部表征，这对静态解释方法和特征探针构成挑战，也为理解模型如何适应上下文提供了新方向。

表征动态性对话建模

研究对话中表征动态变化，涉及记忆内容的上下文依赖性演化。

AgentLongBench：通过环境推演构建可控的长上下文智能体基准测试

AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts

Shicheng Fang, Yuxin Wang, XiaoRan Liu, Jiahao Lu, Chuanyuan Tan et al.

7/10 2026-01-28 cs.CL PDF

大型语言模型（LLMs）向自主智能体的演进要求其管理大规模、动态变化的上下文。然而，现有基准测试多为静态，依赖被动检索任务，无法模拟智能体与环境交互中的非线性推理和迭代反馈等复杂性。为此，本文提出AgentLongBench，基于横向思维谜题构建模拟环境推演，生成涵盖知识密集型与无知识场景的严格交互轨迹。对当前先进模型及记忆系统（32K至4M tokens）的实验揭示了一个关键弱点：尽管在静态检索中表现良好，智能体在动态信息合成方面存在显著不足。分析表明，该性能退化主要由解决查询所需的最小token数量驱动，高信息密度的工具响应比长轮次对话中的记忆碎片化更具挑战性。

long-context memory agent evaluation

论文评估长上下文Agent在动态环境中的记忆表现，重点分析信息合成能力与记忆系统局限性。

CiMRAG：面向边缘大语言模型的计算存内感知、领域自适应且抗噪的检索增强生成方法

CiMRAG: Cim-Aware Domain-Adaptive and Noise-Resilient Retrieval-Augmented Generation for Edge-Based LLMs

Shih-Hsuan Chiu, Ming-Syan Chen

7/10 2026-01-27 cs.LG PDF

基于边缘设备的大语言模型（LLM）个性化虚拟助手日益受到关注，其中检索增强生成（RAG）通过检索用户画像数据生成定制化响应，成为实现个性化的重要手段。然而，随着用户-LLM交互和近期更新等画像数据快速增长，RAG在边缘部署面临效率瓶颈。计算存内（CiM）架构虽可通过原位操作消除内存与处理器间的数据搬运以缓解该问题，但其易受环境噪声干扰，导致检索精度下降。在旅行、医疗、法律等多领域动态边缘场景中，准确性和适应性尤为关键。为此，本文提出任务导向的抗噪嵌入学习框架（TONEL），通过噪声感知投影模型学习符合CiM硬件约束的任务特定嵌入，在噪声环境下实现高精度检索。在个性化基准上的大量实验表明，该方法在任务特定噪声场景下显著优于强基线模型。

检索增强生成计算存内边缘AI 抗噪学习领域自适应

聚焦边缘设备中RAG的存储与检索效率，涉及计算存内架构对记忆机制的影响。

知识并不足够：注入强化学习技能以实现持续适应

Knowledge is Not Enough: Injecting RL Skills for Continual Adaptation

Pingzhi Tang, Yiding Wang, Muhan Zhang

Yiding Wang (Peking University)

7/10 2026-01-16 cs.LG PDF

大语言模型（LLMs）面临“知识截止”挑战，其冻结的参数化记忆难以直接内化新信息。尽管监督微调（SFT）常用于更新知识，但往往仅修改事实内容，未能有效提升模型利用新知识进行问答或决策的能力。强化学习（RL）对习得推理技能至关重要，但其高昂计算成本限制了在线适应效率。本文发现SFT与RL引起的参数更新近乎正交，据此提出参数化技能迁移（PaST）框架，通过从源域提取领域无关的技能向量，在目标模型经轻量SFT后线性注入知识操作技能。在SQuAD、LooGLE和ToolBench等基准上的实验表明，PaST显著提升知识整合与工具使用性能，展现出良好的可扩展性与跨域迁移能力。

参数化记忆技能迁移

聚焦参数化记忆更新与技能迁移，涉及LLM记忆机制但非核心架构研究。

深度GraphRAG：一种兼顾层次化检索与自适应整合的平衡方法

Deep GraphRAG: A Balanced Approach to Hierarchical Retrieval and Adaptive Integration

Yuejie Li, Ke Yang, Tao Wang, Bolin Chen, Bowen Li et al.

Yuejie Li (Ant GroupChina) | Ke Yang (Ant GroupChina) | Tao Wang (Zhejiang UniversityChina)

7/10 2026-01-16 cs.IR PDF

基于图的检索增强生成（GraphRAG）框架在全局搜索的全面性与局部搜索的效率之间存在权衡。现有方法在处理大规模层次化图结构时，常面临检索路径优化、探索-利用平衡及多阶段重排序不足等挑战。为此，本文提出Deep GraphRAG框架，采用从全局到局部的层次化检索策略，融合社区间宏观与社区内微观上下文关系。该策略包含三阶段流程：社区间过滤、社区级精炼和实体级细粒度搜索，并引入基于束搜索优化的动态重排序模块以平衡效率与全面性。此外，其知识整合模块采用紧凑型LLM，结合新型强化学习算法DW-GRPO动态调整相关性、忠实性与简洁性三重目标的奖励权重，使1.5B模型在整合任务中接近70B大模型性能。在Natural Questions和HotpotQA上的实验表明，该方法在准确率与效率上显著优于基线。

GraphRAG 层次化记忆检索增强生成动态重排序知识整合

论文聚焦检索增强生成中的层次化记忆组织与整合，属Agent Memory关键支撑技术。

面向企业检索增强系统的结构与多样性感知上下文气泡构建方法

Structure and Diversity Aware Context Bubble Construction for Enterprise Retrieval Augmented Systems

Amir Khurshid, Abhishek Sehgal

7/10 2026-01-15 cs.AI PDF

大语言模型（LLM）通常通过检索增强生成（RAG）构建上下文，采用top-k段落选择策略，易导致文档结构信息碎片化、内容重复及查询上下文不足（如缺乏二阶、三阶语义维度）。本文提出一种融合结构信息与多样性约束的上下文气泡构建框架，在严格令牌预算下组装连贯、可引用的文本片段。该方法利用文档固有结构（如章节、行等多粒度片段）并引入任务条件化的结构先验指导检索；从高相关性锚点出发，通过平衡查询相关性、边际覆盖度与冗余惩罚进行受限选择，显式控制多样性与预算，生成紧凑且信息丰富的上下文集。系统同时输出完整检索轨迹，支持可审计性与确定性调优。在企业文档上的实验表明，该方法显著减少冗余、更好覆盖次级语义维度，并在有限上下文窗口内提升回答质量与引用忠实度。消融实验证明结构先验与多样性约束均不可或缺。

检索增强生成上下文管理

聚焦上下文构建机制，涉及信息组织与冗余控制，属记忆相关但非核心记忆架构。

CALM-IT：基于双角色对话动态追踪生成逼真的长篇动机式访谈对话

CALM-IT: Generating Realistic Long-Form Motivational Interviewing Dialogues with Dual-Actor Conversational Dynamics Tracking

Viet Cuong Nguyen, Nhi Yen Nguyen, Kristin A. Candan, Mary Conlon, Vanessa Rumie et al.

7/10 2026-01-15 cs.CL PDF

大语言模型（LLMs）在心理健康场景中日益普及，但在长时间交互中难以维持现实且目标导向的对话。尽管LLMs能生成流畅回应，其优化目标局限于当前轮次，缺乏对治疗进展的连贯建模，导致长期对话出现脆弱性和偏离。本文提出CALM-IT框架，用于生成与评估长篇动机式访谈（MI）对话，显式建模双角色（治疗师与来访者）的对话动态。该框架将互动表示为双向状态空间过程，双方持续更新对彼此目标一致性、心理状态及短期目标的推断，以指导策略选择与话语生成。大规模评估表明，CALM-IT在有效性与目标一致性方面显著优于强基线，且随对话长度增加仍保持高度稳定性。尽管治疗师重定向次数较少，其来访者接受率最高（64.3%），表明干预时机更精准、更具治疗一致性。研究证实，建模演化的对话状态对生成高质量长篇合成对话至关重要。

对话系统状态建模

论文建模对话状态演化，涉及长期交互中的状态记忆机制，但未直接聚焦记忆架构。

参照框架：解决情境对话中共识表征的挑战

Frame of Reference: Addressing the Challenges of Common Ground Representation in Situational Dialogs

Biswesh Mohapatra, Théo Charlot, Giovanni Duca, Mayank Palan, Laurent Romary et al.

7/10 2026-01-14 cs.CL PDF

共识在情境化口语对话中至关重要，对话双方需建立并维持对实体、事件和关系的共享指代，以保障交互连贯性。对于对话系统而言，准确地将对话内容锚定于上下文并在后续引用尤为关键。尽管已有研究表明大语言模型（LLM）能执行请求澄清或生成确认等锚定行为，但鲜有工作探讨如何显式表征并存储共识以供后续使用。缺乏此类机制，难以判断确认或澄清行为是否真正反映理解。本文评估模型在情境对话中通过关系性指代建立并利用共识的能力，测试多种共识表征方法，并提出改进共识建立及其后续使用的策略。

common ground dialogue systems

论文聚焦于对话中共同基础的显式表示与存储，涉及记忆机制但非核心主题。

文本作为可迁移个性化通用接口

Text as a Universal Interface for Transferable Personalization

Yuting Liu, Jian Guan, Jia-Nan Li, Wei Wu, Jiang-Ming Yang et al.

7/10 2026-01-08 cs.CL PDF

本文研究大语言模型（LLM）中的个性化问题。现有工作多将用户偏好表示为隐式的、模型特定的向量或参数，导致难以解释和跨模型/任务迁移的“黑盒”画像。作者主张采用自然语言作为通用、与模型和任务无关的偏好表示接口，从而生成可解释、可复用且能随新交互持续演化的偏好描述。为此，提出两阶段训练框架：结合高质量合成数据的监督微调与强化学习，以优化长期效用和跨任务可迁移性，并构建AlignXplore+模型生成文本化偏好摘要。在九个基准上的实验表明，该8B模型性能超越更大规模开源模型，并展现出强跨任务、跨模型族及跨交互格式的迁移能力。

Agent Memory Personalization

提出用自然语言作为可迁移、可解释的偏好记忆表示，属于Agent Memory的重要应用。

ESearch-R1：基于强化学习的成本感知多模态大语言模型智能体用于交互式具身搜索

ESearch-R1: Learning Cost-Aware MLLM Agents for Interactive Embodied Search via Reinforcement Learning

Weijie Zhou, Xuangtang Xiong, Ye Tian, Lijun Yue, Xinyu Wu et al.

7/10 2025-12-21 cs.AI PDF

多模态大语言模型（MLLM）显著提升了具身智能体在规划与推理方面的能力。然而，在面对模糊自然语言指令（如“取工具”）时，现有智能体难以平衡物理探索的高成本与人类交互的认知成本，通常将消歧视为被动感知问题，缺乏最小化总任务执行成本的策略性推理。为此，本文提出ESearch-R1——一种成本感知的具身推理框架，将交互对话（Ask）、情景记忆检索（GetMemory）和物理导航（Navigate）统一为单一决策过程，并引入异构成本感知分组相对策略优化算法（HC-GRPO），通过采样多条推理轨迹并强化那些在信息增益与异构成本（如导航时间、人类注意力）之间取得最优权衡的轨迹来优化MLLM。在AI2-THOR环境中的大量实验表明，ESearch-R1显著优于标准ReAct智能体，在提升任务成功率的同时将总操作成本降低约50%。

具身智能情景记忆多模态大语言模型强化学习

论文将情景记忆检索作为核心决策模块之一，但重点在于成本感知的交互式搜索框架。

面向多智能体讨论的上下文学习

Context Learning for Multi-Agent Discussion

Xingyuan Hua, Sheng Yue, Xinyi Li, Yizhe Zhao, Jinrui Zhang et al.

6/10 2026-02-02 cs.AI PDF

多智能体讨论（MAD）近期受到广泛关注，其中多个大语言模型（LLM）实例通过结构化讨论协同解决问题。然而，现有方法常因各智能体上下文不一致而导致讨论失谐，难以达成连贯解。本文提出一种多LLM上下文学习方法（M2CL），为每个智能体学习一个上下文生成器，可在每轮讨论中通过自动信息组织与精炼动态生成上下文指令。受上下文指令理论启发，M2CL采用精心设计的自适应机制训练生成器，以控制上下文一致性并调节输出差异，从而避免过早收敛于多数噪声，逐步达成正确共识。在学术推理、具身任务和移动控制等挑战性任务上的实验表明，M2CL性能显著优于现有方法20%–50%，且具备良好的迁移性与计算效率。

多智能体系统上下文学习

涉及上下文管理与信息组织，属记忆相关机制但非核心记忆架构。

信念的形状：语言模型后验表征流形上的几何、动态与干预

The Shape of Beliefs: Geometry, Dynamics, and Interventions along Representation Manifolds of Language Models' Posteriors

Raphaël Sarfati, Eric Bigelow, Daniel Wurgaft, Jack Merullo, Atticus Geiger et al.

6/10 2026-02-02 cs.CL PDF

大语言模型（LLMs）通过上下文构建对答案和主张的条件信念（即后验分布），但其在表征空间中如何编码、随新证据更新以及如何通过干预重塑这些信念尚缺乏机制性解释。本文在受控环境中研究Llama-3.2如何仅凭上下文中的样本隐式推断正态分布的参数（均值与标准差），并发现随着上下文学习的深入，参数的“信念流形”呈弯曲结构形成。当分布突变时，标准线性干预常使模型偏离流形，导致耦合且分布外的偏移；而基于几何与场感知的干预能更好保持目标信念族的结构。研究展示了线性场探测（LFP）作为一种简单方法，可对数据流形进行划分并实施尊重底层几何的干预，表明LLM中自然涌现出丰富结构，纯线性概念表征常不足以准确抽象。

belief representation representation geometry

研究LLM信念表征的几何结构与更新机制，涉及记忆中信念状态的动态演化。

WildGraphBench：基于真实来源语料库的图增强检索生成基准测试

WildGraphBench: Benchmarking GraphRAG with Wild-Source Corpora

Pengyu Wang, Benfeng Xu, Licheng Zhang, Shaohan Wang, Mingxuan Du et al.

6/10 2026-02-02 cs.CL PDF

基于图的检索增强生成（GraphRAG）将外部知识组织为层次化图结构，以高效检索并聚合分散于多文档中的证据。然而，现有GraphRAG基准多依赖短小、人工整理的段落，难以在包含长上下文和大规模异构文档的真实场景中有效评估系统性能。为此，本文提出WildGraphBench基准，利用维基百科文章与其外部参考文献之间的结构关系构建贴近现实的评测环境。该基准涵盖12个顶层主题，以外部参考文献作为检索语料库，引用链接的陈述作为真值，共生成1,100个问题，分为单事实问答、多事实问答和段落级摘要三类复杂度。实验表明，当前GraphRAG流程在中等数量来源的多事实聚合任务中表现良好，但在摘要任务中可能因过度强调高层陈述而忽略细粒度细节。

GraphRAG 知识图谱检索增强生成基准测试

涉及外部知识存储与检索机制，属于记忆相关应用但非核心记忆架构研究。

从潜在信号到反思行为：追踪R1风格大语言模型中的元认知激活轨迹

From Latent Signals to Reflection Behavior: Tracing Meta-Cognitive Activation Trajectory in R1-Style LLMs

Yanrui Du, Yibo Gao, Sendong Zhao, Jiayun Li, Haochun Wang et al.

6/10 2026-02-02 cs.CL PDF

R1风格的大语言模型因其自反能力备受关注，但其内在机制尚不明确。本文聚焦反思行为的起始点，逐层追踪其激活轨迹。通过logit lens解析token级语义，发现存在结构化进展：(i) 潜在控制层编码“思考预算”语义；(ii) 语义枢纽层浮现话语级线索（如转折点与总结提示）并主导概率分布；(iii) 行为显化层中反思行为token的采样概率显著上升。干预实验揭示了各阶段间的因果链：提示语义调节潜在控制方向的激活投影，引发语义枢纽层中线索竞争，进而调控反思行为token的采样可能性。结果表明该过程模拟了人类从潜意识监控、话语调控到显式自反的元认知路径。

元认知自反机制

探讨LLM反思行为的内部机制，涉及元认知与信息处理过程，间接关联记忆调控。

超越局部编辑：用于更广泛评估与模型编辑中知识保留的嵌入虚拟化知识

Beyond Local Edits: Embedding-Virtualized Knowledge for Broader Evaluation and Preservation of Model Editing

Shuainan Liu, Xuanang Chen, Ben He, Le Sun

6/10 2026-02-02 cs.CL PDF

当前大语言模型的知识编辑方法通常依赖预定义基准，仅评估被编辑事实及其有限的相关知识，难以全面理解编辑对模型整体知识系统的影响。为此，本文提出嵌入虚拟化知识（EVK），通过在嵌入空间中施加受控扰动，刻画模型知识并探索超出显式数据标注的更广泛虚拟知识区域。基于EVK，作者构建了嵌入级评估基准EVK-Bench，可量化编辑引发的知识漂移，揭示传统样本级指标无法捕捉的影响。此外，还提出即插即用的EVK-Align模块，在编辑过程中约束嵌入级知识漂移，可无缝集成至现有编辑方法。实验表明，该方法在不牺牲编辑准确率的前提下显著提升知识保留能力，并支持更全面的评估。

知识编辑知识保留

涉及知识编辑对模型内部知识（记忆）的影响，但未聚焦Agent Memory架构。

像人类一样阅读：通过可并行的精读与略读压缩上下文

Read As Human: Compressing Context via Parallelizable Close Reading and Skimming

Jiwei Tang, Shilei Liu, Zhicheng Zhang, Qingsong Lv, Runsong Zhao et al.

6/10 2026-02-02 cs.CL PDF

大语言模型（LLMs）在多种任务中表现出卓越能力，但在长上下文场景中受限于计算效率低下和信息冗余。本文提出RAM（Read As HuMan）框架，借鉴人类阅读行为——对重要内容精读、对次要内容略读——将上下文分段并结合查询并行编码。高相关性片段完整保留，低相关性片段则通过查询引导压缩为紧凑摘要向量。显式文本片段与隐式摘要向量拼接后输入解码器，在保持自然语言可解释性的同时提升性能。为进一步优化精读与略读的决策边界，引入基于正负查询-片段对的对比学习目标。实验表明，RAM在多个问答与摘要基准上优于现有方法，并在长输入（平均16K，最长32K）上实现最高12倍的端到端加速。

上下文压缩长上下文处理

提出上下文压缩机制，间接优化Agent的长期记忆处理效率。

基于时序缓存压缩与稀疏注意力的快速自回归视频扩散与世界模型

Fast Autoregressive Video Diffusion and World Models with Temporal Cache Compression and Sparse Attention

Dvir Samuel, Issar Tzachor, Matan Levy, Micahel Green, Gal Chechik et al.

6/10 2026-02-02 cs.CV PDF

自回归视频扩散模型支持流式生成，适用于长视频合成与交互式神经游戏引擎，但其注意力层在推理时因KV缓存持续增长而成为瓶颈，导致延迟增加与GPU内存激增。本文分析了自回归视频扩散中的三类冗余：帧间近重复键、缓慢演化的语义查询/键，以及长提示中仅少数令牌对每帧有效。据此提出无需训练的统一注意力框架：TempCache通过时序对应压缩KV缓存；AnnCA利用近似最近邻匹配选择帧相关提示令牌以加速交叉注意力；AnnSA通过语义匹配稀疏化自注意力。该方法显著降低计算与内存开销，在保持视觉质量的同时实现5–10倍端到端加速，并在长时间推理中维持稳定吞吐与近恒定峰值显存。

KV缓存优化稀疏注意力

聚焦KV缓存压缩与内存优化，属Agent Memory相关机制。

AGT$^{AO}$：基于对抗门控训练与自适应正交性的鲁棒稳定大语言模型遗忘方法

$\textbf{AGT$^{AO}$}$: Robust and Stabilized LLM Unlearning via Adversarial Gating Training with Adaptive Orthogonality

Pengyu Li, Lingling Zhang, Zhitao Gao, Yanrui Wu, Yuxuan Dong et al.

6/10 2026-02-02 cs.LG PDF

尽管大语言模型（LLMs）展现出卓越能力，却会无意中记忆敏感数据，带来严重的隐私与安全风险。机器遗忘是缓解此类风险的关键，但现有方法面临根本困境：激进遗忘易导致灾难性遗忘而损害模型效用，保守策略则可能仅实现表面遗忘，仍易受对抗恢复攻击。为此，本文提出AGT$^{AO}$（对抗门控训练与自适应正交性）统一框架，兼顾鲁棒擦除与效用保持。该方法引入自适应正交性（AO）动态缓解遗忘与保留目标间的梯度冲突，减少非预期知识退化；同时通过对抗门控训练（AGT）将遗忘建模为潜在空间的极小-极大博弈，并采用课程式门控机制模拟并抵御内部恢复尝试。实验表明，AGT$^{AO}$在遗忘效果（KUR≈0.01）与模型效用（MMLU 58.30）之间取得优越平衡。

机器遗忘大语言模型安全

聚焦LLM遗忘机制，涉及记忆删除与保留的权衡，属记忆相关但非Agent专用。

超越稠密状态：将稀疏转码器提升为用于潜在推理的主动算子

Beyond Dense States: Elevating Sparse Transcoders to Active Operators for Latent Reasoning

Yadong Wang, Haodong Chen, Yu Tian, Chuanxing Geng, Dong Liang et al.

6/10 2026-02-02 cs.AI PDF

潜在推理将思维链（CoT）压缩为连续隐状态，但现有方法依赖难以解释和控制的稠密潜在转移。与此同时，稀疏表征模型虽能揭示人类可解释的语义特征，却多限于事后分析。本文提出LSTR（潜在稀疏转码推理）框架，将功能性稀疏转码器提升为主动推理算子，通过稀疏语义转移执行多步计算。其核心是采用残差跳跃架构的潜在转移转码器（LTT），将线性流形迁移与稀疏语义更新解耦，并通过显式稀疏性约束实现可控的语义分辨率。实验表明，LSTR在保持推理准确性和压缩效率的同时，显著优于稠密基线的可解释性。因果干预与轨迹分析进一步证明，这些稀疏特征在推理过程中兼具可解释性与因果有效性。

潜在推理稀疏表征

涉及隐状态压缩与语义表征，属记忆机制的间接应用。

TRIP-Bench：面向现实场景中长周期交互智能体的基准测试

TRIP-Bench: A Benchmark for Long-Horizon Interactive Agents in Real-World Scenarios

Yuanzhe Shen, Zisu Huang, Zhengyuan Wang, Muzhao Tian, Zhengkang Guo et al.

6/10 2026-02-02 cs.AI PDF

随着基于大语言模型（LLM）的智能体被部署于日益复杂的现实环境中，现有基准难以充分反映诸如全局约束执行、多工具协同推理以及在长期多轮交互中适应用户行为演变等关键挑战。为此，我们提出TRIP-Bench——一个基于真实旅行规划场景的长周期交互基准。该基准利用真实数据，提供18个精心设计的工具和40余项旅行需求，并支持自动化评估。其困难子集强调长而模糊的交互、风格变化、可行性变动及迭代版本修订。对话最多包含15轮用户输入、150余次工具调用，上下文长度可超20万token。实验表明，即使先进模型在简单子集上的成功率也不超过50%，在困难子集上则低于10%。我们进一步提出GTPO——一种在线多轮强化学习方法，结合专用奖励归一化与奖励差分策略，在Qwen2.5-32B-Instruct上显著提升约束满足能力与交互鲁棒性，优于Gemini-3-Pro。

长周期交互智能体记忆

涉及长上下文记忆与多轮交互中的信息维护，但未聚焦记忆机制本身。

面向大语言模型驱动AI系统的自主问题生成

Autonomous Question Formation for Large Language Model-Driven AI Systems

Hong Su

6/10 2026-02-02 cs.AI PDF

大语言模型（LLM）驱动的AI系统在动态开放环境中对自主决策日益重要。然而，现有系统多依赖预定义任务和固定提示，难以在环境变化时自主识别待解决问题。本文提出一种基于人类模拟的框架，使AI系统能通过推理其内部状态、环境观测及其他AI交互，自主生成问题并设定任务。该方法将问题生成视为任务选择与执行前的一阶决策过程，融合内驱、环境感知与多智能体感知的提示范围，逐步扩展认知覆盖。框架还支持从经验中学习问题生成过程，以持续提升适应性与决策质量。多智能体仿真结果表明，环境感知提示显著减少“未进食”事件，而多智能体感知提示在20天仿真中进一步降低累计事件超60%（p<0.05）。

自主问题生成多智能体系统

涉及内部状态与经验学习，间接关联记忆机制但非核心。

超越像素：基于图式驱动的智能体推理实现视觉隐喻迁移

Beyond Pixels: Visual Metaphor Transfer via Schema-Driven Agentic Reasoning

Yu Xu, Yuxin Zhang, Juan Cao, Lin Gao, Chunyu Wang et al.

6/10 2026-02-01 cs.CV PDF

视觉隐喻是一种高阶人类创造力形式，通过跨域语义融合将抽象概念转化为具有冲击力的视觉修辞。尽管生成式AI取得显著进展，现有模型仍局限于像素级指令对齐与表层外观保持，难以捕捉实现真正隐喻生成所需的底层抽象逻辑。为此，本文提出视觉隐喻迁移（VMT）任务，要求模型自主解耦参考图像中的“创意本质”，并将该抽象逻辑重新具象化到用户指定的目标主体上。我们构建了一个受认知启发的多智能体框架，通过新颖的图式语法（“G”）实现概念融合理论（CBT）的操作化，该结构化表示将关系不变量与具体视觉实体解耦，为跨域逻辑重实例化提供坚实基础。实验表明，该方法在隐喻一致性、类比恰当性与视觉创造力方面显著优于现有最先进方法。

视觉隐喻多智能体系统

涉及抽象逻辑的提取与跨域重实例化，隐含记忆机制但非核心焦点。

探知知识边界：一种用于深度知识提取的交互式智能体框架

Probing the Knowledge Boundary: An Interactive Agentic Framework for Deep Knowledge Extraction

Yuheng Yang, Siqi Zhu, Tao Feng, Ge Liu, Jiaxuan You

6/10 2026-02-01 cs.LG PDF

大语言模型（LLMs）可视为压缩的知识库，但其实际包含的知识范围尚不明确。现有基准多为静态，难以系统探测知识边界。本文提出一种交互式智能体框架，通过四种自适应探索策略在不同粒度上系统提取并量化LLM中的知识。为保障知识质量，设计了三阶段处理流程：基于向量的去重、基于LLM的语义消歧，以及领域相关性审核。实验表明，递归分类法是最有效的探索策略；模型规模与知识提取量呈明显扩展律；专用模型初始准确率高但衰减快，通用模型则表现更稳定；不同训练数据导致模型家族间存在可测量的知识分布差异。

知识提取智能体框架

涉及知识提取与存储机制，但未聚焦记忆架构本身。

神经FOXP2——面向大语言模型中目标语言提升的语言特异性神经元调控

Neural FOXP2 -- Language Specific Neuron Steering for Targeted Language Improvement in LLMs

Anusa Saha, Tanmay Joshi, Vinija Jain, Aman Chadha, Amitava Das

6/10 2026-02-01 cs.CL PDF

大语言模型虽经多语言训练，但其主导语言常为英语，反映预训练数据中英语的主导地位，其他语言虽存储于参数化记忆中却系统性被抑制。本文提出语言默认性由稀疏低秩控制回路（即“语言神经元”）调控，并可被机制性分离与安全引导。我们引入Neural FOXP2方法，通过三阶段实现目标语言（如印地语或西班牙语）的主语言化：(i)定位语言特异性神经元；(ii)通过谱低秩分析提取语言转换的主导方向；(iii)在低至中层对语言神经元施加有符号的稀疏激活偏移，增强目标语言同时抑制英语表征，从而可控地实现目标语言默认性。

语言控制参数化记忆

涉及参数化记忆中的语言表征调控，但聚焦语言控制而非通用Agent Memory机制。

面向工具路由大语言模型的突触知识库感知联邦知识交换

Synapse Compendium Aware Federated Knowledge Exchange for Tool Routed LLMs

Abhijit Chakraborty, Sandipan De, Yash Shah, Chahana Dahal, Vivek Gupta

6/10 2026-01-31 cs.AI PDF

基于大语言模型（LLM）的智能体在联邦学习下的协作面临通信开销高、数据异构性及工具使用差异等挑战。本文提出Synapse框架，通过训练一个共享的全局工具使用行为知识模型来应对上述问题。各客户端智能体在固定LLM基础上本地学习工具使用模式，并通过协调器上传表征工件以进行联邦聚合；全局工具知识库随之更新并重新分发，促使智能体收敛至稳定的工具选择策略。该框架采用模板化表示、嵌入检索结合LLM重排序以及自适应掩码技术，在保障效用的同时限制信息泄露。实验表明，Synapse在多智能体LLM系统中相较权重或提示共享方法显著提升了工具使用效能并降低了通信开销。

联邦学习工具使用

涉及工具使用知识的共享与聚合，隐含记忆机制但非核心焦点。

HyLRA：用于高效长上下文推理的混合层复用注意力机制

HyLRA: Hybrid Layer Reuse Attention for Efficient Long-Context Inference

Xuan Ai, Qingqing Yang, Peng Wang, Lei Deng, Lin Zhang et al.

6/10 2026-01-31 cs.CL PDF

大语言模型（LLMs）的长上下文推理受限于注意力机制的二次计算复杂度和键值（KV）缓存的巨大内存占用。现有稀疏注意力方法常依赖固定模式或激进剪枝，难以兼顾效率与精度。本文提出HyLRA（混合层复用注意力），基于逐层稀疏性分析，发现注意力机制具有“层内敏感性”（某些层需完整注意力以防特征失真）和“层间相似性”（相邻层共享关键token）。HyLRA通过离线动态规划制定最优逐层策略：对敏感层保留完整注意力，对容忍层则复用前一层的top-k索引以跳过二次计算，从而将计算聚焦于关键token。实验表明，HyLRA在保持性能（精度下降<1%）的同时，推理吞吐量提升6%–46%，优于当前先进稀疏注意力方法。

KV缓存优化稀疏注意力

聚焦KV缓存优化，属LLM推理内存管理，非Agent专属记忆机制。

小型语言模型能否处理上下文摘要的多轮客服问答？基于合成数据的对比评估

Can Small Language Models Handle Context-Summarized Multi-Turn Customer-Service QA? A Synthetic Data-Driven Comparative Evaluation

Lakshan Cooray, Deshan Sumanathilaka, Pattigadapa Venkatesh Raju

6/10 2026-01-31 cs.CL PDF

客服问答系统日益依赖对话语言理解。尽管大语言模型（LLMs）性能优异，但其高计算成本限制了在资源受限环境中的部署。小型语言模型（SLMs）虽更高效，但在需保持对话连贯性与上下文理解的多轮客服问答中效果尚不明确。本文研究了经过指令微调的SLMs在采用历史摘要策略以保留关键对话状态下的表现，并提出基于对话阶段的定性分析方法，评估模型在客服交互不同阶段的行为。通过词汇与语义相似度指标及人工与LLM-as-a-judge评估，对9个低参数SLMs与3个商用LLMs进行比较。结果表明SLMs表现差异显著，部分接近LLM水平，其余则难以维持对话连贯性与上下文对齐。

小型语言模型对话状态管理

采用历史摘要策略维护对话状态，涉及记忆机制但非核心研究。

SEISMO：利用轨迹感知的LLM智能体提升分子优化的样本效率

SEISMO: Increasing Sample Efficiency in Molecular Optimization with a Trajectory-Aware LLM Agent

Fabian P. Krüger, Andrea Hunklinger, Adrian Wolny, Tim J. Adler, Igor Tetko et al.

6/10 2026-01-31 cs.AI PDF

分子结构优化以实现特定性质是化学科学，尤其是药物研发中的关键瓶颈。由于分子性质评估常依赖昂贵且受限的实验或模拟（即“oracle”），高效利用样本至关重要。本文提出SEISMO，一种在推理时严格在线运行的LLM智能体，每次调用oracle后即时更新，无需基于种群或批量学习。SEISMO将完整优化轨迹（包括自然语言任务描述、标量评分及可选的结构化解释性反馈）作为条件生成新分子提案。在包含23项任务的实用分子优化基准上，SEISMO的优化曲线下面积比现有方法高2–3倍，常在50次oracle调用内接近任务最优得分。额外药化任务表明，引入解释性反馈可进一步提升效率，凸显融合领域知识与结构化信息对样本高效优化的重要性。

LLM Agent Molecular Optimization

利用优化轨迹作为上下文记忆，但未深入探讨记忆机制本身。

立场：智能体演化是大语言模型演进的路径

Position: Agentic Evolution is the Path to Evolving LLMs

Minhua Lin, Hanqing Lu, Zhan Shi, Bing He, Rui Mao et al.

6/10 2026-01-30 cs.AI PDF

随着大语言模型（LLMs）从静态训练集走向开放的真实世界环境，一个根本性局限显现：静态训练无法跟上部署环境的持续变化。尽管增加训练和推理阶段的算力可提升静态能力，却无法弥合训练与部署之间的差距。本文主张，解决此问题需引入新的扩展维度——演化。现有部署期适应方法（如参数微调或启发式记忆积累）缺乏诊断失败并实现持久改进所需的战略性智能体能力。作者提出“智能体演化”是LLM适应的必然未来，将演化本身从固定流程提升为自主的演化智能体，并构建通用框架A-Evolve，将部署期改进视为对持久系统状态的有目标优化过程。进一步提出演化扩展假设：适应能力随分配给演化的算力而扩展，使智能体演化成为实现现实世界中持续、开放式适应的可扩展路径。

智能体演化持续适应

提及启发式记忆积累作为现有方法，但非核心研究重点。

从相似性到脆弱性：面向大语言模型语义缓存的密钥碰撞攻击

From Similarity to Vulnerability: Key Collision Attack on LLM Semantic Caching

Zhixiang Zhang, Zesen Liu, Yuchong Xie, Quanfeng Huang, Dongdong She

6/10 2026-01-30 cs.CR PDF

语义缓存已成为扩展大语言模型（LLM）应用的关键技术，被AWS和微软等主流服务商广泛采用。该机制利用语义嵌入向量作为缓存键，有效降低语义相似查询的延迟与冗余计算。本文将语义缓存键视为一种模糊哈希，指出为提升缓存命中率所需的局部性与密码学雪崩效应对抗碰撞的要求存在根本冲突。我们首次系统研究缓存碰撞引发的完整性风险，提出名为CacheAttack的黑盒自动化攻击框架，在安全关键任务与智能体工作流中实现86%的响应劫持命中率，并能诱导LLM智能体产生恶意行为，且在不同嵌入模型间具有良好迁移性。金融智能体案例进一步揭示了该漏洞的现实危害，并讨论了缓解策略。

语义缓存安全漏洞

探讨语义缓存作为LLM Agent记忆机制的安全性问题，涉及记忆存储与检索的核心环节。

TriCEGAR：一种面向智能体AI的轨迹驱动抽象机制

TriCEGAR: A Trace-Driven Abstraction Mechanism for Agentic AI

Roham Koohestani, Ateş Görpelioğlu, Egor Klimov, Burcu Kulahcioglu Ozkan, Maliheh Izadi

6/10 2026-01-30 cs.AI PDF

智能体AI系统通过工具进行交互，并在长期、随机的交互轨迹中演化其行为，这使得其行为保障变得复杂，因其依赖于非确定性环境和概率性模型输出。先前工作通过动态概率保障（DPA）引入了运行时验证方法，在线学习马尔可夫决策过程（MDP）并进行量化属性的模型检测。然而，该方法要求开发者手动定义状态抽象，导致验证过程与特定应用启发式紧密耦合，增加采用难度。本文提出TriCEGAR，一种从执行日志自动构建状态抽象的轨迹驱动机制，支持在线构建智能体行为MDP。TriCEGAR将抽象表示为从轨迹中学习并利用反例精化的谓词树。我们描述了一个原生框架实现，可捕获类型化的智能体生命周期事件、从轨迹构建抽象、构造MDP，并执行概率模型检测以计算如最大成功概率Pmax(success)和最小失败概率Pmin(failure)等边界。此外，运行似然性还可作为护栏信号用于异常检测。

智能体验证状态抽象

涉及从执行轨迹构建状态抽象，隐含记忆机制但非核心主题。

面向动态环境中具身智能体的测试时世界模型混合方法

Test-Time Mixture of World Models for Embodied Agents in Dynamic Environments

Jinwoo Jang, Minjong Yoo, Sihyung Yoon, Honguk Woo

6/10 2026-01-30 cs.AI PDF

基于语言模型的具身智能体在现实场景中日益普及，但在动态环境中适应能力有限，而构建准确且灵活的世界模型对有效推理与决策至关重要。为此，本文将混合专家（MoE）范式扩展至具身智能体，提出测试时世界模型混合框架（TMoW）。该框架在测试阶段动态更新世界模型的路由函数，通过多粒度原型路由、测试时特征对齐及基于蒸馏的混合增强，实现对未知和演化环境的持续适应。实验在VirtualHome、ALFWorld和RLBench基准上验证了其在零样本适应与少样本扩展场景中的优越性能。

世界模型具身智能体

涉及世界模型的动态组合与更新，隐含记忆机制但未显式研究记忆架构。

ScholarPeer：一种面向自动同行评审的上下文感知多智能体框架

ScholarPeer: A Context-Aware Multi-Agent Framework for Automated Peer Review

Palash Goyal, Mihir Parmar, Yiwen Song, Hamid Palangi, Tomas Pfister et al.

6/10 2026-01-30 cs.MA PDF

自动同行评审已从简单的文本分类发展为结构化反馈生成。然而，当前最先进的系统仍局限于“表面级”批评：虽擅长内容总结，却常因缺乏人类专家所具备的外部上下文，而难以准确评估论文的新颖性与重要性，或识别深层方法论缺陷。本文提出ScholarPeer——一种支持检索的多智能体框架，旨在模拟资深研究者的认知过程。该框架通过历史学家智能体动态构建领域叙事，借助基线侦察智能体识别缺失的对比，并利用多维度问答引擎验证主张，将评审意见锚定于实时的大规模文献中。在DeepReview-13K上的评估表明，ScholarPeer在成对比较中显著优于现有方法，并缩小了与人类评审在多样性方面的差距。

多智能体系统上下文记忆

论文涉及动态构建领域叙事和上下文获取，隐含记忆机制但非核心焦点。

持续复现与精炼：持续任务漂移下的终身学习车辆路径规划

Keep Rehearsing and Refining: Lifelong Learning Vehicle Routing under Continually Drifting Tasks

Jiyuan Pei, Yi Mei, Jialin Liu, Mengjie Zhang, Xin Yao

6/10 2026-01-30 cs.LG PDF

现有神经求解器通常在固定任务集上一次性训练，或在顺序到达的若干任务上进行终身学习，且假设每个任务均有充足训练资源。然而现实场景中，问题模式常随时间持续漂移，导致大量任务依次出现，而每个任务仅能获得有限训练资源。本文研究一种新型终身学习范式，针对学习过程中持续漂移的任务，且任意时刻均无法对任一任务充分训练的情形。为此，提出“经验增强的双重回放”（DREE）框架，以提升学习效率并缓解灾难性遗忘。大量实验表明，在持续漂移设定下，DREE能有效学习新任务、保留先验知识、提升对未见任务的泛化能力，并可适配多种现有神经求解器。

终身学习灾难性遗忘

提出双回放机制缓解灾难性遗忘，涉及记忆保留但非核心记忆架构研究。

迈向材料科学的智能体智能

Towards Agentic Intelligence for Materials Science

Huan Zhang, Yizhan Li, Wenhao Huang, Ziyu Hou, Yu Song et al.

6/10 2026-01-29 cond-mat.mtrl-sci PDF

人工智能与材料科学的融合带来变革性机遇，但要真正加速发现，需超越孤立任务的微调模型，转向能在整个发现闭环中规划、行动与学习的智能体系统。本文提出一种以流程为中心的独特视角，涵盖语料构建、预训练、领域适配、指令微调，直至与仿真和实验平台交互的目标条件智能体。不同于以往综述，本文将全过程视为端到端系统，以实际发现成果而非代理基准为目标进行优化，并探讨上游设计（如数据构建与训练目标）如何通过有效信用分配与下游实验成功对齐。文章整合AI与材料科学的术语、评估与工作流，并从双重视角分析：AI侧强调大语言模型在模式识别、预测分析与文献挖掘中的优势；材料科学侧聚焦材料设计、工艺优化及与外部工具（如DFT、机器人实验室）集成以加速计算流程。最后，对比被动响应式方法与具备自主性、记忆与工具使用能力的智能体设计，勾勒出通往安全、自主LLM智能体的实用路线图。

LLM智能体材料发现

提及记忆作为智能体实现长期目标的关键组件之一，但非核心研究重点。

基于预算约束的本地语言模型与云卸载决策联合持续学习

Joint Continual Learning of Local Language Models and Cloud Offloading Decisions with Budget Constraints

Evan Chen, Wenzhi Fang, Shiqiang Wang, Christopher Brinton

6/10 2026-01-29 cs.LG PDF

本地部署的小型语言模型（SLMs）需在严格的内存与计算约束下持续支持多样化任务，因此不可避免地需选择性依赖云端大语言模型（LLMs）。在持续学习过程中调控云协助具有挑战性，因为基于奖励的强化学习常导致不稳定的卸载行为，并在任务分布变化时加剧灾难性遗忘。本文提出DA-GRPO方法，作为Group Relative Policy Optimization的双优势扩展，将云使用约束直接融入优势函数计算，避免固定奖励塑形和外部路由模型。该设计使本地模型能联合学习任务能力与协作行为，使云请求在训练后自然出现，同时满足预设的协助预算。在数学推理与代码生成基准上的实验表明，DA-GRPO相比现有协同与路由方法显著提升任务切换后的准确率、大幅减少遗忘，并保持稳定的云使用量。

持续学习云边协同

涉及本地模型在内存限制下的持续学习，与Agent Memory间接相关。

SWE-Replay：面向软件工程智能体的高效测试时扩展方法

SWE-Replay: Efficient Test-Time Scaling for Software Engineering Agents

Yifeng Ding, Lingming Zhang

6/10 2026-01-29 cs.SE PDF

测试时扩展已被广泛用于提升大语言模型（LLM）智能体在软件工程任务中的能力，但传统方法通过从头反复采样轨迹导致计算开销巨大。现有方法虽尝试引入专用价值评估模型以降低成本，却易受模型校准偏差影响，且难以泛化至能合成自定义bash脚本工具的现代智能体。本文提出SWE-Replay，首个无需依赖潜在噪声价值估计、高效且可泛化的测试时扩展技术。该方法通过复用先前试验中的轨迹，在关键中间步骤动态选择从头探索或利用存档经验进行分支，其分支决策基于代码仓库探索的潜力与推理重要性，而非外部LLM的质量评估。实验表明，在SWE-Bench Verified上，SWE-Replay在降低最多17.4%成本的同时，性能提升最高达3.8%；在SWE-Bench Pro和Multilingual上的进一步验证证实了其良好泛化能力。

Agent Memory Test-Time Scaling

利用轨迹重放机制复用历史经验，涉及记忆存储与检索，但非核心记忆架构研究。

患者并非移动文档：一种面向纵向电子健康记录的世界模型训练范式

The Patient is not a Moving Document: A World Model Training Paradigm for Longitudinal EHR

Irsyad Adam, Zekai Chen, David Laprade, Shaun Porwal, David Laub et al.

6/10 2026-01-29 cs.AI PDF

基于下一词预测训练的大语言模型（LLMs）在临床基础模型中取得成功，其表征在多种生物医学任务中表现优异。然而，该范式将患者视为待总结的文档，而非需模拟的动态系统。为此，作者提出SMB-Structure——一种结合联合嵌入预测架构（JEPA）与监督微调（SFT）的世界模型。SFT使模型能在token空间重建未来患者状态，而JEPA仅从初始表征在潜在空间预测未来状态，迫使模型在观测下一状态前编码轨迹动态。在两个大规模队列（MSK和INSPECT）上的实验表明，该方法学习到的嵌入能捕捉自回归基线无法恢复的疾病动态，在高异质性患者任务中表现优异。

世界模型电子健康记录

涉及状态表征与轨迹建模，隐含记忆机制但未显式研究Agent Memory。

Code

检索增强推理沙盒：用于解耦检索与推理能力的基准

Retrieval-Infused Reasoning Sandbox: A Benchmark for Decoupling Retrieval and Reasoning Capabilities

Shuangshuang Ying, Zheyu Wang, Yunjian Peng, Jin Chen, Yuhao Wu et al.

6/10 2026-01-29 cs.AI PDF

尽管大语言模型在现有基准上表现优异，其能否对真正新颖的科学信息进行推理仍不明确。当前评估多针对端到端RAG流程，混淆了推理、检索及工具链选择，并受参数化记忆和网络内容波动干扰。本文提出DeR2——一个受控的深度研究沙盒，通过四个证据访问机制（仅指令、概念、相关文档、完整文档集）隔离基于文档的推理，同时保留深度搜索的核心挑战：多步综合、去噪与基于证据的结论生成。DeR2可量化检索损失与推理损失，并支持细粒度错误归因。为防止参数泄露，采用两阶段验证机制；为确保可复现性，每个实例提供冻结的2023–2025年理论论文库及专家标注的概念与推理依据。实验表明，前沿模型在该基准上表现差异显著，存在模式切换脆弱性或结构性概念误用等问题。

检索增强生成推理评估

聚焦检索与推理解耦，涉及记忆机制但非核心研究记忆架构。

FIT：在持续大语言模型遗忘中克服灾难性遗忘

FIT: Defying Catastrophic Forgetting in Continual LLM Unlearning

Xiaoyu Xu, Minxin Du, Kun Fang, Zi Liang, Yaxin Xiao et al.

6/10 2026-01-29 cs.CL PDF

大语言模型（LLMs）虽在多种任务中表现卓越，却引发隐私、版权及有害内容等担忧。现有遗忘方法很少考虑现实场景中持续且高频的删除请求，易导致效用下降与灾难性遗忘。为此，本文提出FIT框架，通过严格的数据过滤（Filtering）、重要性感知更新（Importance-aware updates）和目标层归因（Targeted layer attribution），在大量连续删除请求下有效平衡遗忘效果与效用保留，并抵御遗忘后恢复攻击。作者还构建了PCH基准，涵盖个人信息、版权与有害内容的序列删除场景，并引入对称指标“遗忘度”（F.D.）与“保留效用”（R.U.）进行综合评估。实验表明，FIT在四个开源LLM上均取得最优权衡，并在MMLU、CommonsenseQA和GSM8K等任务中超越现有方法。

持续学习模型遗忘

涉及持续学习中的遗忘与记忆保留机制，属记忆相关但非核心Agent Memory架构研究。

通过智能体技能演化实现的元上下文工程

Meta Context Engineering via Agentic Skill Evolution

Haoran Ye, Xuning He, Vincent Arak, Haonan Dong, Guojie Song

6/10 2026-01-29 cs.AI PDF

大语言模型的运行效能高度依赖其推理时的上下文，这促使上下文工程（CE）成为优化输入的正式学科。现有CE方法依赖人工设计的固定流程和预定义模式，存在结构偏见且限制了优化空间。本文提出元上下文工程（MCE），一种双层框架，通过协同演化CE技能与上下文工件，取代静态启发式方法。在MCE迭代中，元层智能体通过智能体交叉操作，在技能历史、执行记录与评估结果中进行深思熟虑的搜索以优化工程技能；基底层智能体则执行这些技能，从训练轨迹中学习，并将上下文优化为灵活的文件与代码。在五个不同领域及离线/在线设置下的实验表明，MCE相较当前最先进的智能体CE方法平均提升16.9%（相对提升5.6%–53.8%），同时在上下文适应性、迁移性及使用与训练效率方面表现更优。

上下文工程智能体技能演化

论文聚焦上下文工程优化，涉及Agent在推理时对上下文（可视为短期记忆）的动态管理与演化，但未直接研究记忆机制本身。

BEAP-Agent：面向GUI智能体的可回溯执行与自适应规划

BEAP-Agent: Backtrackable Execution and Adaptive Planning for GUI Agents

Ziyu Lu, Tengjin Weng, Yiying Yang, Yuhang Zhao, Xinxin Huang et al.

6/10 2026-01-29 cs.AI PDF

图形用户界面（GUI）智能体旨在自动化重复性任务以提升效率，但现有方法在探索路径出错后难以恢复，常导致任务失败。本文将GUI任务执行建模为深度优先搜索（DFS）过程，提出BEAP-Agent框架，支持长距离、多层次的状态回溯，并结合动态任务跟踪与更新机制。该框架由规划器（Planner）、执行器（Executor）和追踪器（Tracker）三个协同组件构成，有效提升任务探索与执行能力。BEAP-Agent填补了GUI智能体系统化回溯机制的空白，为长视野任务探索提供系统性解决方案。在OSWorld基准上的系统评估显示，该方法达到28.2%的准确率，验证了其有效性。

GUI智能体状态回溯任务规划长视野执行

提出多层级状态回溯机制，隐含短期记忆与状态追踪，但未显式研究记忆架构。

规划者-审核者双体：基于FHIR的LLM规划、指南召回、可选缓存与自改进的智能出院规划

Planner-Auditor Twin: Agentic Discharge Planning with FHIR-Based LLM Planning, Guideline Recall, Optional Caching and Self-Improvement

Kaiyuan Wu, Aditya Nagori, Rishikesan Kamaleswaran

6/10 2026-01-28 cs.AI PDF

本文提出一种可自改进、支持可选缓存的规划者-审核者（Planner-Auditor）框架，用于提升临床出院规划的安全性与可靠性。规划者（LLM）生成结构化出院计划并附带置信度估计；审核者为确定性模块，评估任务覆盖度、校准性（Brier分数、ECE代理指标）及动作分布漂移。框架支持两种自改进机制：单次会话内重生成与跨会话高置信低覆盖案例的差异缓冲回放。实验表明，自改进循环显著提升任务覆盖率（32%→86%）并改善置信校准，差异缓冲有效修正持续性高置信遗漏。

Agent Memory Clinical Decision Support

论文涉及可选缓存（optional caching）和回放机制，属于记忆相关应用，但非核心研究。

ChunkWise LoRA：面向内存高效低秩适配与加速大语言模型推理的自适应序列分块方法

ChunkWise LoRA: Adaptive Sequence Partitioning for Memory-Efficient Low-Rank Adaptation and Accelerated LLM Inference

Ketan Thakkar, Maitreyi Chatterjee, Ramasubramanian Balasubramanian, Achyuthan Jootoo, Rajendra Ugrani

6/10 2026-01-28 cs.CL PDF

近期低秩适配（LoRA）技术实现了大语言模型（LLM）的高效微调，但现有方法对所有输入token采用静态秩配置，忽视了token复杂度与计算需求的差异。本文提出ChunkWise LoRA，一种动态自适应方法，根据token复杂度将序列划分为可变长度块，并为每块分配定制化的低秩配置。系统引入运行时调度器，通过难度估计、自适应分块及基于秩阶梯机制的配置选择实现优化。为保障输出一致性，设计了边界安全组合模块并集成策略驱动的KV缓存策略。在Wikitext-103和SQuAD等基准上的实验表明，该方法相较基线LoRA最多降低34%延迟、减少38%内存占用，同时维持或提升BLEU、EM和困惑度等指标。该框架完全兼容现有Transformer架构与推理系统，适用于实际部署。

低秩适配内存优化

聚焦LLM推理中的内存效率优化，涉及KV缓存策略，但非Agent Memory核心机制。

基于自我怀疑与恢复的元认知强化学习

Meta-Cognitive Reinforcement Learning with Self-Doubt and Recovery

Zhipeng Zhang, Wenting Ma, Kai Li, Meng Guo, Lei Yang et al.

6/10 2026-01-28 cs.LG PDF

现有鲁棒强化学习方法通常聚焦于抑制不可靠经验或被污染的奖励，却缺乏对自身学习过程可靠性的推理能力，易因噪声过度保守或在不确定性累积时发生灾难性失败。本文提出一种元认知强化学习框架，使智能体能基于内部估计的可靠性信号评估、调节并恢复其学习行为。该方法引入由价值预测误差稳定性（VPES）驱动的元信任变量，通过故障安全调控与渐进式信任恢复机制调制学习动态。在存在奖励污染的连续控制基准实验中，该方法相比强鲁棒性基线取得了更高的平均回报，并显著减少了训练后期的失败率。

元认知强化学习

涉及内部可靠性信号与学习行为调节，隐含记忆机制但未显式研究记忆。

进化策略导致大语言模型中的灾难性遗忘

Evolutionary Strategies lead to Catastrophic Forgetting in LLMs

Immanuel Abdi, Akshat Gupta, Micah Mok, Alexander Lu, Nicholas Lee et al.

6/10 2026-01-28 cs.LG PDF

当前人工智能系统缺乏部署后持续学习的能力，而实现此类系统面临诸多挑战，其中之一是主流基于梯度的大语言模型训练算法对内存的高需求。进化策略（ES）作为一种无梯度替代方法近期重新受到关注，并在特定任务中展现出良好性能。本文对ES进行了全面分析，重点评估其在不断增加更新步数下的遗忘曲线。研究发现，在相近计算预算下，ES在数学与推理任务上可接近GRPO的性能，但其性能提升伴随着对先前能力的显著遗忘，限制了其在线训练适用性。进一步分析表明，ES更新相比GRPO更新稀疏性更低且ℓ²范数高出数个数量级，解释了二者遗忘行为的差异。

灾难性遗忘持续学习

研究持续学习中的遗忘问题，涉及记忆保持机制。

从可解释性到性能：优化长上下文语言模型的检索注意力头

From Interpretability to Performance: Optimizing Retrieval Heads for Long-Context Language Models

Youmi Ma, Naoaki Okazaki

6/10 2026-01-16 cs.CL PDF

机制可解释性研究已识别出一类特殊的注意力头——检索头（retrieval heads），其负责从上下文中检索信息。然而，这些检索头对模型性能的贡献尚未被充分探索。本文研究了如何利用检索头提升大语言模型的长上下文能力，并提出RetMask方法：通过对比正常模型输出与屏蔽检索头后的消融模型输出，生成训练信号。该基于机制的方法在Llama-3.1上于128K上下文长度下，在HELMET基准上提升2.28分，引用生成任务提升70%，段落重排序提升32%，同时保持通用任务性能。跨三个模型家族的实验表明，效果取决于检索头的组织方式：集中式模式响应显著，而分布式模式增益有限。该结果验证了检索头的功能，并证明机制洞察可转化为性能提升。

检索机制长上下文建模

研究涉及上下文信息检索机制，与记忆机制相关但非核心Agent Memory架构。

当个性化产生误导：理解并缓解个性化大语言模型中的幻觉问题

When Personalization Misleads: Understanding and Mitigating Hallucinations in Personalized LLMs

Zhongxiang Sun, Yi Zhan, Chenglei Shen, Weijie Yu, Xiao Zhang et al.

ZhongXiang Sun (Renmin University of China)

6/10 2026-01-16 cs.CL PDF

个性化大语言模型（LLMs）通过适配用户个体行为以提升满意度，但可能无意中扭曲事实推理。本文发现，当面对事实性查询时，个性化LLM倾向于生成与用户历史偏好一致而非客观真实的答案，导致“个性化诱导幻觉”，损害事实可靠性并可能传播错误信念，其根源在于个性化表征与事实表征之间的表征纠缠。为此，作者提出一种轻量级推理时方法——保真个性化引导（FPPS），在保留个性化行为的同时缓解事实扭曲。此外，构建了首个联合评估个性化与事实问答能力的基准PFQABench。在多种LLM架构和个性化方法上的实验表明，FPPS显著提升事实准确性，同时维持个性化性能。

个性化大语言模型幻觉缓解

涉及个性化记忆对事实推理的干扰，属记忆相关机制研究。

基于激活签名的表征感知遗忘：从抑制到知识签名擦除

Representation-Aware Unlearning via Activation Signatures: From Suppression to Knowledge-Signature Erasure

Syed Naveed Mahmood, Md. Rezaur Rahman Bhuiyan, Tasfia Zaman, Jareen Tasneem Khondaker, Md. Sameer Sakib et al.

6/10 2026-01-15 cs.CL PDF

从大语言模型中选择性擦除知识对GDPR合规与模型安全至关重要，但现有遗忘方法常将行为抑制误认为真正知识移除，导致潜在能力仍存。本文提出知识免疫框架（KIF），通过靶向内部激活签名而非表面输出，区分真实擦除与混淆。该方法结合动态抑制特定主题表征与参数高效适配，在无需全模型重训练下实现持久遗忘。KIF在保持接近神谕级效用的同时达成近神谕级擦除效果，突破了以往工作中的稳定性-擦除权衡。研究覆盖Llama、Mistral等基础模型及Qwen、DeepSeek等推理优先模型，揭示不同架构在遗忘行为上的根本差异，并提出结合表面泄露与潜在痕迹的双指标评估协议，首次系统诊断跨模型家族与规模的机制级遗忘行为。

知识遗忘激活签名

涉及模型内部表征的遗忘机制，与记忆擦除相关但非Agent Memory核心。

面向推理的协作式多智能体测试时强化学习

Collaborative Multi-Agent Test-Time Reinforcement Learning for Reasoning

Zhiyuan Hu, Yunhai Hu, Juncheng Liu, Shuyue Stella Li, Yucheng Wang et al.

6/10 2026-01-14 cs.AI PDF

多智能体系统已发展为由大语言模型驱动的实用协作者，在多样性与交叉验证中提升鲁棒性。然而，多智能体强化学习（MARL）训练成本高且不稳定：协同适应导致环境非平稳，奖励信号稀疏且方差大。为此，本文提出多智能体测试时强化学习（MATTRL）框架，在推理阶段将结构化文本经验注入多智能体协商过程。MATTRL组建由专家组成的多智能体团队进行多轮讨论，检索并整合测试时经验，最终达成共识决策。研究还探讨了轮次级信用分配机制，用于构建经验池并重新注入对话。在医学、数学和教育等挑战性基准上，MATTRL相较多智能体基线平均提升准确率3.67%，相较单智能体基线提升8.67%。消融实验分析了不同信用分配策略对性能的影响。该方法无需微调即可实现对分布偏移鲁棒、稳定高效的多智能体推理。

多智能体系统测试时学习经验重用大语言模型

论文涉及在推理时注入结构化经验，属于记忆机制的应用，但非核心记忆架构研究。

SERM：基于智能体驱动从海量查询流中学习的自演化相关性模型

SERM: Self-Evolving Relevance Model with Agent-Driven Learning from Massive Query Streams

Chenglong Wang, Canjia Li, Xingzhao Zhu, Yifu Huo, Huiyu Wang et al.

6/10 2026-01-14 cs.CL PDF

由于现实世界查询流具有动态演化特性，相关性模型难以泛化到实际搜索场景。现有自演化方法在大规模工业环境中面临两大挑战：（1）信息量丰富的样本稀疏且难以识别；（2）当前模型生成的伪标签不可靠。为此，本文提出自演化相关性模型（SERM），包含两个互补的多智能体模块：多智能体样本挖掘器用于检测分布偏移并识别信息量大的训练样本，多智能体相关性标注器通过两级共识机制提供可靠标签。在日均处理数十亿用户请求的大规模工业系统中评估表明，SERM通过迭代自演化显著提升性能，经多语言离线评估与在线测试验证有效。

多智能体系统自演化学习

涉及多智能体协作中的信息筛选与标注，隐含记忆机制但未显式研究记忆架构。

LLM智能体对其世界了解多少？Task2Quiz：一种研究环境理解的新范式

What Do LLM Agents Know About Their World? Task2Quiz: A Paradigm for Studying Environment Understanding

Siyuan Liu, Hongbang Yuan, Xinze Li, Ziyue Zhu, Yixin Cao et al.

6/10 2026-01-14 cs.AI PDF

大型语言模型（LLM）智能体在复杂决策与工具使用任务中展现出卓越能力，但其在不同环境中的泛化能力仍缺乏深入评估。现有评估方法主要依赖衡量任务成功的轨迹指标，却忽视了智能体是否具备可迁移、具身化的环境模型。为此，本文提出Task-to-Quiz（T2Q）范式，通过确定性、自动化的问答机制将任务执行与环境状态理解解耦，并构建包含30个环境和1,967个具身问答对的T2QBench基准。实验表明，任务成功常不能反映真实环境理解水平，且现有记忆机制难以有效支持智能体构建具身环境模型。研究识别出主动探索与细粒度状态表示为主要瓶颈，为开发更具泛化能力的自主智能体奠定基础。

Agent Memory Environment Understanding

论文指出当前记忆机制无法有效支持环境建模，Memory是关键但非核心主题。

Character-R1：通过RLVR增强角色扮演智能体的角色感知推理能力

Character-R1: Enhancing Role-Aware Reasoning in Role-Playing Agents via RLVR

Yihong Tang, Kehai Chen, Xuefeng Bai, Benyou Wang, Zeming Liu et al.

Yihong Tang (Harbin Institute of Technology, Shenzhen)

6/10 2026-01-08 cs.CL PDF

当前角色扮演智能体（RPAs）通常通过模仿表层行为构建，缺乏内在认知一致性，易在复杂情境中出现“出戏”错误。为此，本文提出Character-R1框架，旨在提供全面且可验证的奖励信号以支持有效的角色感知推理。该框架包含三项核心设计：（1）认知焦点奖励，通过显式标签分析10个角色要素（如世界观）以结构化内部认知；（2）参考引导奖励，利用与参考回答的重叠度指标作为优化锚点，提升探索与性能；（3）角色条件奖励归一化，依据角色类别调整奖励分布，确保异构角色下的鲁棒优化。大量实验表明，Character-R1在知识、记忆等方面显著优于现有方法。

角色扮演智能体强化学习

论文提及memory作为评估维度之一，但核心聚焦于角色一致性奖励机制。

全视视频生成

Plenoptic Video Generation

Xiao Fu, Shitao Tang, Min Shi, Xian Liu, Jinwei Gu et al.

6/10 2026-01-08 cs.CV PDF

尽管如ReCamMaster等相机控制的生成式视频重渲染方法在单视角场景中取得显著进展，但在多视角场景下仍难以维持时空一致性，尤其在生成模型固有随机性导致的幻觉区域。为此，本文提出PlenopticDreamer框架，通过同步生成式幻觉以维护时空记忆。其核心是采用自回归方式训练多输入单输出的视频条件模型，并结合相机引导的视频检索策略，自适应选取先前生成中的显著视频作为条件输入。此外，该方法引入渐进式上下文缩放以提升收敛性、自条件机制以缓解长程视觉退化，并支持长视频条件生成。在Basic和Agibot基准上的实验表明，PlenopticDreamer在视图同步、视觉保真度、相机控制精度及多样化视角变换方面达到领先水平。

视频生成时空一致性

提出“spatio-temporal memory”概念用于多视角视频生成一致性，属记忆机制应用。

以智能体为裁判

Agent-as-a-Judge

Runyang You, Hongru Cai, Caiqi Zhang, Qiancheng Xu, Meng Liu et al.

6/10 2026-01-08 cs.CL PDF

大语言模型作为裁判（LLM-as-a-Judge）通过利用大语言模型实现了可扩展的AI评估，但随着被评估对象日益复杂、专业化和多步骤化，其可靠性受限于固有偏见、浅层单次推理以及无法对照现实观察进行验证。为此，研究转向“以智能体为裁判”（Agent-as-a-Judge），其中智能体裁判通过规划、工具增强验证、多智能体协作和持久记忆，实现更稳健、可验证且细致的评估。尽管此类系统迅速发展，领域内仍缺乏统一框架。本文首次对该演进路径进行全面综述，提出刻画范式转变的关键维度与发展阶段分类法，梳理核心方法并覆盖通用与专业领域的应用，同时分析前沿挑战并指明未来研究方向。

Agent Memory AI Evaluation

论文将持久记忆作为Agent-as-a-Judge的关键能力之一，但非核心研究主题。

Nalar：一个智能体服务框架

Nalar: An agent serving framework

Marco Laju, Donghyun Son, Saurabh Agarwal, Nitin Kedia, Myungjin Lee et al.

6/10 2026-01-08 cs.DC PDF

由大语言模型驱动的智能体应用日益用于自动化复杂的多步骤任务，但其高效服务仍面临挑战，包括异构组件、动态且模型驱动的控制流、长时运行状态及不可预测的延迟。Nalar是一个从底层构建的智能体服务框架，清晰分离工作流定义与执行，并提供运行时可见性与控制能力以保障稳健性能。该框架保留完整的Python表达能力，通过轻量级自动生成的存根将智能体与工具调用转化为携带依赖与上下文元数据的Future对象。其托管状态层将逻辑状态与物理位置解耦，支持安全复用、迁移及一致的重试行为。两级控制架构结合全局策略计算与本地事件驱动执行，实现对动态演进工作流的自适应路由、调度与资源管理。实验表明，Nalar在三个智能体工作负载上显著降低尾部延迟（34%–74%），最高提速2.9倍，在基线系统失效时仍可维持80 RPS，并能扩展至13万Future对象且控制开销低于500毫秒。

智能体服务状态管理

论文提出托管状态层以解耦逻辑状态与物理存储，涉及Agent Memory机制但非核心焦点。

大语言模型推理硬件的挑战与研究方向

Challenges and Research Directions for Large Language Model Inference Hardware

Xiaoyu Ma, David Patterson

6/10 2026-01-08 cs.AR PDF

大语言模型（LLM）推理具有显著挑战性，其底层Transformer模型的自回归解码阶段使其与训练过程存在本质差异。受近期AI发展趋势影响，当前主要瓶颈在于内存与互连，而非计算能力。为应对这些挑战，本文提出四项架构研究方向：高带宽闪存以实现10倍于HBM的存储容量并保持相近带宽；近存计算与3D内存-逻辑堆叠以提升内存带宽；以及低延迟互连以加速通信。尽管聚焦数据中心AI场景，本文也探讨了上述技术在移动设备中的适用性。

LLM推理硬件架构

聚焦LLM推理中的内存瓶颈，但非针对Agent Memory机制。

用于星载高光谱图像实时去噪的可扩展神经推扫式架构

Scalable neural pushbroom architectures for real-time denoising of hyperspectral images onboard satellites

Ziyao Yi, Davide Piccinini, Diego Valsesia, Tiziano Bianchi, Enrico Magli

6/10 2026-01-08 eess.IV PDF

下一代地球观测卫星需在载荷端部署智能模型以降低地面段传输与处理延迟。本文针对星载高光谱成像场景，提出一种兼顾高质量推理、动态功耗可扩展性与容错能力的神经网络架构。该方法采用多个去噪器的混合结构，具备抗辐射故障能力并支持时变功耗调节；每个去噪器以因果方式逐行处理图像，并保留对先前行的记忆，契合推扫式传感器的数据采集过程，显著降低内存占用。实验表明，该架构可在低功耗硬件上实现实时处理（一行处理时间不超过下一行采集时间），且去噪性能媲美更复杂的先进模型。

星载计算高光谱图像去噪

论文提出基于行处理的因果架构，利用对前序行的记忆以降低内存需求，涉及有限记忆机制但非LLM Agent核心记忆研究。

面向智能体科学推理的高阶知识表示方法

Higher-Order Knowledge Representations for Agentic Scientific Reasoning

Isabella A. Stewart, Markus J. Buehler

6/10 2026-01-08 cs.AI PDF

科学探究需要整合异构实验数据、跨领域知识与机制证据以形成连贯解释。尽管大语言模型具备推理能力，但其依赖的检索增强上下文常缺乏结构深度。传统知识图谱因仅建模二元关系，难以捕捉决定涌现物理行为的不可约高阶交互。本文提出基于超图的知识表示方法，可忠实编码多实体关系。在约1,100篇生物复合支架文献上构建的全局超图包含161,172个节点与320,201条超边，呈现无标度拓扑（幂律指数约1.23），围绕高度连接的概念枢纽组织。该表示避免了二元扩展导致的组合爆炸，并保留科学表述的共现语境。结合超图遍历工具（如节点交集约束），智能体可连接语义遥远概念，成功生成如通过壳聚糖中介将氧化铈与PCL支架关联的机制性假设。该“无教师”智能体系统以超图拓扑为可验证约束，加速发现被传统图方法掩盖的关系。

超图智能体推理

论文涉及知识表示与检索机制，支撑Agent推理，但未直接研究记忆架构。

RAAR：用于跨领域虚假信息检测的检索增强型智能体推理框架

RAAR: Retrieval Augmented Agentic Reasoning for Cross-Domain Misinformation Detection

Zhiwei Liu, Runteng Guo, Baojie Qu, Yuechen Jiang, Min Peng et al.

6/10 2026-01-08 cs.CL PDF

跨领域虚假信息检测具有挑战性，因虚假信息在不同领域间存在显著的知识与话语差异。现有方法多依赖单一视角线索，难以泛化至困难或代表性不足的领域；而推理型大语言模型虽在复杂任务中有效，却受限于同分布数据假设。为此，本文提出RAAR——首个面向跨领域虚假信息检测的检索增强型智能体推理框架。RAAR通过检索与目标样本语义、情感和写作风格对齐的多视角源域证据，实现超越同分布假设的跨域迁移；并通过多智能体协作构建可验证的多步推理路径，其中各视角专用智能体生成互补分析，摘要智能体在验证器指导下进行整合。此外，RAAR采用监督微调与强化学习训练单一多任务验证器以提升推理与验证能力。基于该框架训练的RAAR-8b与RAAR-14b模型在三项跨领域虚假信息检测任务上显著优于基线模型、先进大语言模型及适配方法。

检索增强多智能体系统

涉及检索增强机制，属于记忆相关应用，但非核心记忆架构研究。

Code

OptiSet：面向检索增强生成的统一集合选择与排序优化方法

OptiSet: Unified Optimizing Set Selection and Ranking for Retrieval-Augmented Generation

Yi Jiang, Sendong Zhao, Jianbo Li, Bairui Hu, Yanrui Du et al.

6/10 2026-01-08 cs.AI PDF

检索增强生成（RAG）通过引入从大型外部语料库中检索到的证据来提升生成质量。然而，现有方法通常基于单个相关性静态选取前k个段落，未能利用段落间的组合增益，且常引入大量冗余。为此，本文提出OptiSet——一种以集合为中心的框架，统一进行集合选择与集合级排序。OptiSet采用“扩展-精炼”范式：首先将查询扩展为多个视角以构建多样化的候选池，再通过重选精炼形成紧凑的证据集；并设计了一种无需强LLM监督的自合成策略，从生成器的集合条件效用变化中推导偏好标签，识别互补与冗余证据；最后引入集合列表式训练策略，联合优化集合选择与排序，使模型偏好紧凑且高增益的证据集。大量实验表明，OptiSet在复杂组合问题上性能更优，且提升生成效率。

检索增强生成证据选择

涉及RAG中的证据选择与冗余处理，属记忆检索优化，但未聚焦Agent Memory机制本身。

LaST₀：用于机器人视觉-语言-动作模型的隐式时空思维链

LaST$_{0}$: Latent Spatio-Temporal Chain-of-Thought for Robotic Vision-Language-Action Model

Zhuoyang Liu, Jiaming Liu, Hao Chen, Ziyu Guo, Chengkai Hou et al.

6/10 2026-01-08 cs.RO PDF

视觉-语言-动作（VLA）模型在机器人操作中展现出强大的泛化能力。现有方法常通过显式生成语言推理轨迹或未来视觉观测来提升动作准确性，但会引入显著推理延迟，并受限于语言表征瓶颈，难以刻画不可言传的物理属性。为此，本文提出LaST₀框架，通过隐式的时空思维链（Latent Spatio-Temporal Chain-of-Thought）实现高效推理，捕捉难以语言化的细粒度物理与机器人动态。该方法构建了一个高效的隐式思维链空间，建模未来视觉动态、三维结构信息及机器人本体感知状态，并在时间维度上扩展以形成时序一致的隐式推理轨迹。LaST₀采用混合Transformer架构的双系统设计：推理专家执行低频隐式推理，动作专家基于面向机器人的隐式表征生成高频动作，并通过异构运行频率训练实现推理与动作速率的自适应切换。在10个仿真和6个真实世界操作任务中，LaST₀相较先前VLA方法平均成功率分别提升8%和13%，同时显著加快推理速度。

隐式推理机器人操作

提出隐式时空推理轨迹，涉及状态记忆与时间一致性，但未聚焦传统记忆机制。

EvoRoute：基于经验驱动的自路由大语言模型智能体系统

EvoRoute: Experience-Driven Self-Routing LLM Agent Systems

Guibin Zhang, Haiyang Yu, Kaiming Yang, Bingli Wu, Fei Huang et al.

6/10 2026-01-06 cs.CL PDF

由多个大语言模型（LLMs）、工具和记忆模块协同构成的复杂智能体系统在多轮复杂任务中展现出卓越能力，但其高昂成本与严重延迟揭示了性能、成本与速度之间的关键权衡难题，即“智能体系统三难困境”。为此，本文提出EvoRoute——一种自演化的模型路由范式，通过不断积累的先验经验知识库，在每一步动态选择帕累托最优的LLM主干模型，平衡准确性、效率与资源消耗，并利用环境反馈持续优化自身路由策略。在GAIA和BrowseComp+等挑战性基准上的实验表明，EvoRoute集成至现成智能体系统后，不仅维持或提升性能，还可降低执行成本高达80%，减少延迟超70%。

LLM Agent Model Routing

论文提及memory模块作为系统组件，但聚焦于模型路由优化而非记忆机制本身。

大型语言模型中信念引导的能动性与元认知监控的迹象

Indications of Belief-Guided Agency and Meta-Cognitive Monitoring in Large Language Models

Noam Steinmetz Yalon, Ariel Goldstein, Liad Mudrik, Mor Geva

5/10 2026-02-02 cs.CL PDF

大型语言模型（LLMs）的快速发展引发了关于其是否具备某种意识形式的讨论。本文基于Butlin等人（2023）提出的意识指标，重点评估其中HOT-3指标——即由通用信念形成与行动选择系统引导的能动性，该系统通过元认知监控更新信念。我们将信念视为模型潜在空间中对输入响应而产生的表征，并引入量化其在生成过程中主导性的度量。跨模型与任务的信念动态分析揭示三点发现：(1)外部干预可系统性调节内部信念形成；(2)信念形成因果驱动行动选择；(3)模型能监控并报告自身信念状态。结果为LLMs中存在信念引导的能动性与元认知监控提供了实证支持，并为研究LLMs中能动性、信念与元认知的涌现奠定了方法论基础。

信念表征元认知监控

涉及信念表征与元认知监控，间接关联记忆机制但非核心。

数据分布至关重要：面向大语言模型上下文压缩的数据中心视角

Data Distribution Matters: A Data-Centric Perspective on Context Compression for Large Language Model

Kangtao Lv, Jiwei Tang, Langming Liu, Haibin Chen, Weidong Zhang et al.

5/10 2026-02-02 cs.CL PDF

大语言模型（LLMs）在长上下文场景中的部署受限于计算效率低下和信息冗余。尽管上下文压缩已被广泛采用，但现有研究多聚焦于模型侧改进，忽视了数据分布本身对压缩效果的影响。本文首次从数据中心视角系统探究输入数据与模型内在预训练知识（即内在数据）的分布如何影响压缩质量。通过基于自编码器的框架评估压缩表示的语义完整性，实验发现：（1）编码器测得的输入熵与压缩质量呈负相关，而解码器测得的熵在冻结解码器设置下无显著关联；（2）编码器与解码器内在数据之间的差距显著削弱压缩收益，且难以缓解。基于此，作者提出了优化压缩效果的实用指南。

上下文压缩数据分布

涉及上下文压缩对信息保留的影响，间接关联记忆机制。

当RAG造成损害时：诊断并缓解检索增强型大视觉语言模型中的注意力分散问题

When RAG Hurts: Diagnosing and Mitigating Attention Distraction in Retrieval-Augmented LVLMs

Beidi Zhao, Wenlong Deng, Xinting Liao, Yushu Li, Nazim Shaikh et al.

5/10 2026-01-30 cs.CV PDF

尽管检索增强生成（RAG）是提升大视觉语言模型（LVLMs）在知识型视觉问答任务中表现的主流范式，但近期研究将RAG失败归因于对检索上下文的注意力不足，并建议减少分配给图像标记的注意力。本文识别出一种先前被忽视的失败模式——注意力分散（Attention Distraction, AD）：当检索到的上下文充分时，其文本内容会全局抑制视觉注意力，导致模型对图像中与问题相关区域的关注减弱，从而在原本无需检索即可正确回答的问题上出现错误。为此，作者提出MAD-RAG方法，一种无需训练的干预策略，通过双问题形式解耦视觉定位与上下文整合，并结合注意力混合以保留图像条件证据。在OK-VQA、E-VQA和InfoSeek上的大量实验表明，MAD-RAG在不同模型家族中均显著优于现有基线，最高带来4.76%、9.20%和6.18%的绝对提升，并能修正高达74.68%的失败案例，且计算开销可忽略。

RAG 视觉语言模型

涉及检索增强中的注意力机制，与记忆使用相关但非核心记忆架构研究。

探查大语言模型中推理轨迹的演化路径

Probing the Trajectories of Reasoning Traces in Large Language Models

Marthe Ballon, Brecht Verbeken, Vincent Ginis, Andres Algaba

5/10 2026-01-30 cs.LG PDF

大语言模型（LLMs）常通过生成“推理轨迹”来解决复杂问题，但尚不清楚其准确性与决策确定性如何随推理过程演变，以及中间轨迹是否包含超越长度或风格效应的答案相关信息。本文提出一种系统性探查协议：生成模型推理轨迹，在固定token百分位截断，并将各部分重新注入模型以通过下一token概率评估答案分布。在Qwen3和gpt-oss系列模型上的GPQA Diamond与MMLU-Pro基准测试表明，随着提供推理token比例增加，准确率与决策确定性持续提升，且主要源于生成内容的相关性而非上下文长度或通用“推理风格”。强模型能从错误轨迹中有效回退，而弱模型的答案易被早期错误锚定。该方法可为推理模型的安全高效部署提供诊断依据。

推理轨迹大语言模型决策演化模型诊断

研究推理轨迹中信息演化，间接涉及记忆机制但非核心。

上下文结构重塑语言模型的表征几何

Context Structure Reshapes the Representational Geometry of Language Models

Eghbal A. Hosseini, Yuxuan Li, Yasaman Bahri, Declan Campbell, Andrew Kyle Lampinen

5/10 2026-01-29 cs.CL PDF

大型语言模型（LLMs）在深层网络中将输入序列的表征组织为更“笔直”的神经轨迹，这被认为有助于通过线性外推进行下一词预测。本文结合表征笔直化与上下文学习（ICL）研究，考察ICL过程中上下文内部是否发生表征笔直化。在Gemma 2模型上对多种ICL任务的分析揭示了两种模式：在连续预测任务（如自然语言、网格世界遍历）中，上下文长度增加会提升轨迹笔直度，并与预测性能正相关；而在结构化预测任务（如少样本学习）中，笔直化仅出现在具有显式结构的阶段（如模板重复），其他阶段则消失。结果表明ICL并非单一过程，LLM会根据任务结构动态选择策略，仅部分策略导致表征笔直化。

in-context learning representational geometry

探讨上下文中的表征变化，间接关联记忆机制但非核心。

PersonaCite：基于用户之声的可访谈、可验证的合成AI角色代理系统

PersonaCite: VoC-Grounded Interviewable Agentic Synthetic AI Personas for Verifiable User and Design Research

Mario Truss

5/10 2026-01-29 cs.HC PDF

基于大语言模型（LLM）和智能体的合成角色日益用于设计与产品决策，但现有研究表明，基于提示的角色常生成具有说服力却不可验证的回应，掩盖其证据基础。本文提出PersonaCite——一种通过检索增强交互将AI角色重构为证据受限研究工具的智能体系统。与依赖提示角色扮演的先前方法不同，PersonaCite在每次对话轮次中检索真实的用户之声（Voice-of-Customer）素材，将回应严格限定于检索到的证据，在证据缺失时明确拒绝回答，并提供逐条回应的来源引用。通过对14位行业专家的半结构化访谈与部署研究，初步识别了其感知优势、有效性疑虑与设计张力，并提出“角色溯源卡”作为人本设计流程中负责任使用AI角色的文档模式。

检索增强生成可验证AI 人本设计合成角色

涉及检索增强机制，与记忆中的信息存储和引用相关，但非核心记忆架构研究。

为何存在注意力模式：一种统一的时序视角分析

Why Attention Patterns Exist: A Unifying Temporal Perspective Analysis

Qingyue Yang, Jie Wang, Xing Li, Yinqi Bai, Xialiang Tong et al.

5/10 2026-01-29 cs.CL PDF

注意力模式在大语言模型（LLMs）的训练与推理中至关重要。以往研究识别出检索头、汇聚头和对角线轨迹等个别模式，但缺乏统一解释。本文提出时序注意力模式可预测性分析（TAPPA），从连续时间视角出发，通过数学形式化统一解释多样注意力模式。TAPPA将注意力模式分为具有明确规律的可预测模式与近似随机的不可预测模式，并揭示该区分源于查询在时序维度上的自相似程度。针对可预测模式，作者结合查询、键与旋转位置编码（RoPE）进行详细数学分析。实验表明，基于TAPPA启发的简单指标在KV缓存压缩与LLM剪枝任务中持续优于基线方法。

注意力机制 KV缓存优化

论文分析注意力模式可预测性，间接关联KV缓存压缩，涉及记忆机制但非核心。

Code

深度递归注意力混合：赋予潜在推理应有的注意力

Depth-Recurrent Attention Mixtures: Giving Latent Reasoning the Attention it Deserves

Jonas Knupp, Jan Hendrik Metzen, Jeremias Bohn, Georg Groh, Kristian Kersting

5/10 2026-01-29 cs.AI PDF

深度递归通过跨深度共享参数促进潜在推理，但现有工作缺乏在FLOP、参数量和内存方面匹配的基线，且因部分固定层堆叠而未能充分利用深度递归，并忽视了恒定隐藏维度对多步潜在推理的瓶颈。为此，我们提出一种模块化框架——深度递归注意力混合（Dreamer），融合序列注意力、深度注意力与稀疏专家注意力。该方法通过沿深度维度的注意力缓解隐藏维度瓶颈，解耦缩放维度，使深度递归模型能高效有效扩展。在语言推理基准上，该模型达到相同准确率所需训练token数仅为匹配基线的1/2至1/8，并以相同训练量超越约2倍规模的最先进模型。此外，我们揭示了不同深度间知识使用的特性，例如专家选择多样性比现有MoE模型高2至11倍。

深度递归注意力机制

涉及深度递归中的隐状态管理，与记忆机制间接相关。

面向深度复合AI系统的文本均衡传播方法

Textual Equilibrium Propagation for Deep Compound AI Systems

Minghui Chen, Wenlong Deng, James Zou, Han Yu, Xiaoxiao Li

5/10 2026-01-28 cs.LG PDF

大语言模型（LLMs）越来越多地被部署于协调多个模块（如检索器、工具、验证器）的复合AI系统中，执行长周期工作流。现有基于全局文本反馈传播的方法（如TextGrad）在系统深度增加时性能下降，表现为“文本梯度爆炸”和“文本梯度消失”两种失效模式。为此，本文提出文本均衡传播（TEP），受能量模型中均衡传播启发，包含自由相（局部LLM批评者迭代优化提示至均衡）和扰动相（通过前向信号而非反向链进行有界提示编辑）。该方法在长程问答和多智能体工具使用任务中优于TextGrad，且随系统深度提升效果更显著，同时保持黑盒LLM组件的实用性。

Agent Memory Compound AI Systems

涉及长程信息传递与上下文压缩，间接关联记忆机制。

基于证据增强的策略优化与奖励协同进化用于长上下文推理

Evidence-Augmented Policy Optimization with Reward Co-Evolution for Long-Context Reasoning

Xin Guan, Zijian Li, Shen Huang, Pengjun Xie, Jingren Zhou et al.

5/10 2026-01-15 cs.AI PDF

尽管强化学习（RL）已推动大语言模型（LLM）的推理能力，但在长上下文场景中仍受限于结果奖励的稀疏性，难以惩罚无依据的“幸运猜测”，导致关键的“大海捞针”式证据检索过程缺乏监督。为此，本文提出EAPO（Evidence-Augmented Policy Optimization）。首先确立证据增强推理范式，并通过树状证据采样验证精确证据提取是长上下文推理的决定性瓶颈。EAPO引入一种专用RL算法，由奖励模型计算群体相对证据奖励，提供密集的过程监督以显式提升证据质量。为维持训练过程中监督的准确性，进一步设计自适应奖励-策略协同进化机制，利用结果一致的rollout迭代优化奖励模型，增强其判别能力以确保精准的过程引导。在八个基准上的综合评估表明，EAPO显著优于当前最先进基线。

强化学习长上下文推理

涉及证据检索与长期上下文处理，间接关联记忆机制。

思长远，行简短：面向大型推理模型的稳定序列测试时缩放方法

Thinking Long, but Short: Stable Sequential Test-Time Scaling for Large Reasoning Models

Michael R. Metel, Yufei Cui, Boxing Chen, Prasanna Parthasarathi

5/10 2026-01-14 cs.AI PDF

序列测试时缩放是一种无需训练即可提升大型推理模型准确率的有前景方法，但现有实现存在明显局限：延长推理长度虽可提升准确率，但过度延伸会导致性能下降与模型不稳定。本文提出一种新方法Min-Seek，在广泛推理长度范围内显著提升模型准确率，稳定序列缩放效果，并免除了对推理长度的精细调优。该方法仅在KV缓存中保留一个额外推理步骤的键值对，具备内在高效性。通过定制化KV缓存（存储不含位置编码的键，并在每次生成新推理前动态连续编码），该方法可突破模型最大上下文长度限制，在温和条件下实现线性计算复杂度。

测试时缩放 KV缓存优化

涉及KV缓存管理与上下文扩展，属记忆机制应用层面。

DocDancer：面向基于文档的主动信息检索智能体

DocDancer: Towards Agentic Document-Grounded Information Seeking

Qintong Zhang, Xinjie Lv, Jialong Wu, Baixuan Li, Zhengwei Tao et al.

5/10 2026-01-08 cs.CL PDF

文档问答（DocQA）旨在回答基于给定文档的问题，但现有DocQA智能体缺乏有效的工具利用能力，且多依赖闭源模型。本文提出DocDancer，一个端到端训练的开源文档智能体。我们将DocQA建模为信息检索问题，并设计了一个工具驱动的智能体框架，显式建模文档探索与理解过程。为支持端到端训练，我们提出“探索-合成”数据合成流程，以缓解高质量DocQA训练数据稀缺问题。在MMLongBench-Doc和DocBench两个长上下文文档理解基准上的实验表明，所训练模型具有有效性。进一步分析为智能体工具设计与合成数据提供了有价值的见解。

文档问答智能体工具使用

涉及文档探索与信息整合，隐含短期记忆机制，但未显式研究记忆架构。

ArcAligner：用于RAG中压缩上下文嵌入的自适应递归对齐器

ArcAligner: Adaptive Recursive Aligner for Compressed Context Embeddings in RAG

Jianbo Li, Yi Jiang, Sendong Zhao, Bairui Hu, Haochun Wang et al.

5/10 2026-01-08 cs.CL PDF

检索增强生成（RAG）有助于提升大语言模型的准确性，但将长文档输入提示会显著增加计算开销。为此，研究者提出了多种上下文压缩方法，如词元剪枝、摘要和嵌入压缩等。然而，过度压缩会导致模型难以理解信息。本文提出ArcAligner（自适应递归上下文对齐器），一种轻量级模块，集成于语言模型层中，以提升模型对高度压缩上下文表示的利用能力。其采用自适应“门控”机制，仅在信息复杂时增加计算，兼顾效率与性能。在多个知识密集型问答基准上，ArcAligner在相近压缩率下显著优于现有基线，尤其在多跳推理和长尾场景中表现突出。代码已开源。

RAG 上下文压缩

涉及压缩上下文表示，间接关联Agent记忆机制。

每页显示: