长上下文记忆 语义干扰
摘要

长上下文大语言模型(LLM)智能体需从大规模环境中准确检索并忠实使用证据。然而,流行的“针在草堆”(NIAH)评估主要衡量良性的片段定位,其中“针”近乎唯一,“草堆”大多无关。本文提出EverMemBench-S(EMB-S),一个基于3.26亿词元MemoryBank的对抗性NIAH风格基准。为公平比较,仅在模型上下文窗口内(最高1M词元)评估原生长上下文模型。EMB-S通过人工筛选与LLM验证,为查询配对经碰撞测试的近似负样本及跨多文档的黄金证据集。作者还提出解耦诊断协议,分别报告证据访问(文档ID定位)与端到端问答质量,适用于原生提示与检索增强系统。实验表明,在语义干扰下,即使在NIAH上表现优异的系统,其证据访问能力也显著下降,揭示语义区分能力而非上下文长度才是大规模长上下文记忆的主要瓶颈。

AI 推荐理由

聚焦长上下文Agent的记忆检索与语义干扰下的证据使用,核心评估记忆机制。

论文信息
作者 Tianwei Lin, Zuyi Zhou, Xinda Zhao, Chenke Wang, Xiaohong Li et al.
发布日期 2026-01-28
arXiv ID 2601.20276
相关性评分 9/10 (高度相关)