摘要
长期对话记忆是基于LLM的对话系统的核心能力,但现有基准和评估协议主要关注表层事实性回忆。在实际交互中,适当回应往往依赖于隐式约束,如用户状态、目标或价值观,这些内容并未被后续显式查询。为此,本文引入了LoCoMo-Plus,一个用于评估在提示与语义断开情况下认知记忆能力的基准。我们进一步表明,传统字符串匹配指标和显式任务类型提示与此类场景不一致,并提出了基于约束一致性的统一评估框架。实验结果表明,认知记忆仍具有挑战性,并揭示了现有基准未能捕捉到的失败案例。我们的代码和评估框架已公开。
AI 推荐理由
论文聚焦于LLM代理的长期对话记忆评估,提出新的基准框架以测试认知记忆能力。
论文信息