AgentLongBench：通过环境推演构建可控的长上下文智能体基准测试

摘要

大型语言模型（LLMs）向自主智能体的演进要求其管理大规模、动态变化的上下文。然而，现有基准测试多为静态，依赖被动检索任务，无法模拟智能体与环境交互中的非线性推理和迭代反馈等复杂性。为此，本文提出AgentLongBench，基于横向思维谜题构建模拟环境推演，生成涵盖知识密集型与无知识场景的严格交互轨迹。对当前先进模型及记忆系统（32K至4M tokens）的实验揭示了一个关键弱点：尽管在静态检索中表现良好，智能体在动态信息合成方面存在显著不足。分析表明，该性能退化主要由解决查询所需的最小token数量驱动，高信息密度的工具响应比长轮次对话中的记忆碎片化更具挑战性。

AI 推荐理由

论文评估长上下文Agent在动态环境中的记忆表现，重点分析信息合成能力与记忆系统局限性。

论文信息

作者 Shicheng Fang, Yuxin Wang, XiaoRan Liu, Jiahao Lu, Chuanyuan Tan et al.

发布日期 2026-01-28

arXiv ID 2601.20730