long-context memory agent evaluation
摘要

大型语言模型(LLMs)向自主智能体的演进要求其管理大规模、动态变化的上下文。然而,现有基准测试多为静态,依赖被动检索任务,无法模拟智能体与环境交互中的非线性推理和迭代反馈等复杂性。为此,本文提出AgentLongBench,基于横向思维谜题构建模拟环境推演,生成涵盖知识密集型与无知识场景的严格交互轨迹。对当前先进模型及记忆系统(32K至4M tokens)的实验揭示了一个关键弱点:尽管在静态检索中表现良好,智能体在动态信息合成方面存在显著不足。分析表明,该性能退化主要由解决查询所需的最小token数量驱动,高信息密度的工具响应比长轮次对话中的记忆碎片化更具挑战性。

AI 推荐理由

论文评估长上下文Agent在动态环境中的记忆表现,重点分析信息合成能力与记忆系统局限性。

论文信息
作者 Shicheng Fang, Yuxin Wang, XiaoRan Liu, Jiahao Lu, Chuanyuan Tan et al.
发布日期 2026-01-28
arXiv ID 2601.20730
相关性评分 7/10 (相关)