摘要
长期记忆是多模态大语言模型(MLLM)智能体的关键能力,尤其在信息随时间累积和演化的对话场景中。然而,现有评测基准要么仅评估纯文本多轮对话中的记忆能力,要么在局部上下文中考察多模态理解,无法有效衡量多模态记忆在长期对话轨迹中的保存、组织与演化。为此,本文提出Mem-Gallery——一个用于评估MLLM智能体多模态长期对话记忆的新基准。该基准包含基于视觉与文本信息的高质量多轮对话,具有长交互周期和丰富的多模态依赖关系。在此基础上,作者构建了一个系统性评估框架,从记忆提取与测试时适应、记忆推理、记忆知识管理三个功能维度评估关键记忆能力。对十三种记忆系统的广泛评测揭示了当前模型在显式多模态信息保留与组织方面的必要性、记忆推理与知识管理的持续局限,以及效率瓶颈。
AI 推荐理由
论文聚焦多模态大语言模型智能体的长期对话记忆机制,提出专门评测基准。
论文信息