摘要
基于大语言模型的智能助手亟需长期对话记忆能力,但现有评测基准局限于双人单话题对话,难以反映真实场景的复杂性。本文提出EverMemBench,一个包含多方、多群组对话的评测基准,涵盖超百万token的对话内容,具备时序演化的信息、跨话题交织及角色特定人格特征。该基准通过1000余个问答对,从细粒度回忆、记忆意识和用户画像理解三个维度评估记忆系统。实验揭示了当前方法的关键局限:多跳推理在多方场景中失效;时序推理尚未解决,需超越时间戳匹配的版本语义;记忆意识受限于检索机制,现有基于相似性的方法难以弥合查询与隐含相关记忆间的语义鸿沟。EverMemBench为下一代记忆架构提供了具有挑战性的测试平台。
AI 推荐理由
论文聚焦LLM长期交互记忆的评测,核心研究Agent Memory机制。
论文信息