external memory streaming data memory lifecycle LLM evaluation context integration
摘要

大多数对外部记忆模块的评估假设静态环境:记忆在离线状态下构建,并在固定状态下查询。然而,在实际应用中,记忆是流式的:新事实持续到达,插入与检索交替进行,记忆状态在模型处理查询时不断演变。在这种情况下,准确性和成本由完整的记忆生命周期决定,包括信息的摄入、维护、检索和生成集成。本文提出Neuromem,一个可扩展的测试平台,用于在交错插入与检索协议下评估外部记忆模块,并将其生命周期分解为五个维度,包括记忆数据结构、归一化策略、巩固策略、查询公式策略和上下文集成机制。通过LOCOMO、LONGMEMEVAL和MEMORYAGENTBENCH三个代表性数据集,Neuromem在共享服务栈内评估了可互换的变体,报告了词级F1和插入/检索延迟。总体来看,随着记忆在多轮中增长,性能通常下降,而时间相关查询仍然是最具挑战性的类别。记忆数据结构在很大程度上决定了可达到的质量边界,而激进的压缩和生成集成机制主要在插入和检索之间转移成本,但准确性提升有限。

AI 推荐理由

论文聚焦于LLM的外部记忆模块,研究其在流式数据下的生命周期管理,属于记忆机制的核心研究。

论文信息
作者 Ruicheng Zhang, Xinyi Li, Tianyi Xu, Shuhao Zhang, Xiaofei Liao et al.
发布日期 2026-02-15
arXiv ID 2602.13967
相关性评分 10/10 (高度相关)