摘要
大型语言模型(LLMs)在执行长期、现实任务方面的能力不断增强。然而,随着上下文长度的增长,其可靠性往往会下降,这一现象被称为“上下文腐化”。现有的长上下文基准主要集中在单步设置中评估模型从长片段中检索信息的能力。然而,在现实场景中,LLMs通常需要作为代理来探索环境、遵循指令和计划、提取有用信息,并在动态增长的上下文中预测正确动作。为此,我们引入了LOCA-bench(长上下文代理基准)。给定一个任务提示,LOCA-bench利用对环境状态的自动化和可扩展控制来调节代理的上下文长度。这种设计使LOCA-bench能够在受控方式下将上下文长度潜在地扩展到无限,同时保持底层任务语义不变。LOCA-bench评估语言代理作为模型和辅助结构的组合,包括各种上下文管理策略。尽管随着环境状态变得复杂,代理性能通常会下降,但先进的上下文管理技术可以显著提高整体成功率。我们开源了LOCA-bench,以提供一个平台来评估模型和辅助结构在长上下文、代理场景中的表现。
AI 推荐理由
论文聚焦于长上下文场景下语言代理的性能评估,直接涉及记忆机制与上下文管理策略。
论文信息