长期记忆 记忆结构 LLM代理 基准测试 知识组织
摘要

现代基于LLM的代理和聊天助手依赖长期记忆框架来存储可重用知识、回忆用户偏好并增强推理能力。随着研究者构建更复杂的记忆架构,分析其能力并指导未来设计变得愈发困难。现有长期记忆基准主要关注简单事实保留、多跳回忆和时间变化,但这些能力通常可通过简单的检索增强LLM实现,并未测试复杂记忆层次。为此,本文提出StructMemEval基准,用于测试代理组织长期记忆的能力,而不仅仅是事实回忆。我们收集了一系列需要人类通过特定结构组织知识的任务,如交易账本、待办事项列表和树状结构等。初步实验表明,简单检索增强LLM在这些任务上表现不佳,而若提示如何组织记忆,记忆代理则能可靠解决。然而,我们发现现代LLM在未被提示时并不总能识别记忆结构。这突显了未来在LLM训练和记忆框架改进中的重要方向。

AI 推荐理由

论文聚焦于LLM代理的记忆结构评估,提出新的基准测试以检验复杂记忆组织能力。

论文信息
作者 Alina Shutova, Alexandra Olenina, Ivan Vinogradov, Anton Sinitsin
发布日期 2026-02-11
arXiv ID 2602.11243
相关性评分 9/10 (高度相关)