摘要
大型语言模型(LLMs)向自主智能体的演进要求其管理大规模、动态变化的上下文。然而,现有基准测试多为静态,依赖被动检索任务,无法模拟智能体与环境交互中的非线性推理和迭代反馈等复杂性。为此,本文提出AgentLongBench,基于横向思维谜题构建模拟环境推演,生成涵盖知识密集型与无知识场景的严格交互轨迹。对当前先进模型及记忆系统(32K至4M tokens)的实验揭示了一个关键弱点:尽管在静态检索中表现良好,智能体在动态信息合成方面存在显著不足。分析表明,该性能退化主要由解决查询所需的最小token数量驱动,高信息密度的工具响应比长轮次对话中的记忆碎片化更具挑战性。
AI 推荐理由
论文评估长上下文Agent在动态环境中的记忆表现,重点分析信息合成能力与记忆系统局限性。
论文信息