摘要
大语言模型(LLMs)在对话智能体中展现出强大潜力,但在如在线情感支持等复杂长期网络服务中,其效果受限于鲁棒的长期记忆能力不足。现有长期对话评测基准主要关注静态、显式事实检索,难以评估用户信息分散、隐含且持续演变的关键场景。为此,本文提出ES-MemEval,一个系统评估长期情感支持中五项核心记忆能力(信息抽取、时序推理、冲突检测、拒答机制和用户建模)的综合基准,涵盖问答、摘要与对话生成任务。同时构建了EvoEmo多会话数据集,捕捉碎片化、隐式用户披露及动态演变的用户状态。实验表明,显式长期记忆对减少幻觉和实现有效个性化至关重要;检索增强(RAG)虽提升事实一致性,但在处理时序动态与用户状态演化方面仍存挑战。
AI 推荐理由
聚焦长期记忆能力评估,提出专门基准与数据集。
论文信息