Agent Memory Test-Time Improvement
摘要

近期自主大语言模型(LLM)智能体展现出通过与环境迭代交互提升性能的能力,本文将其定义为“测试时改进”(Test-Time Improvement, TTI)。然而,TTI成功或失败的内在机制尚不明确,现有评估指标难以刻画任务优化效率、错误行为后的适应能力,以及工作记忆对任务完成的具体效用。为此,本文提出TIDE(Test-time Improvement Diagnostic Evaluation)框架,该框架与智能体和环境无关,将TTI分解为三个相互关联的维度:(1)任务完成的整体时间动态,(2)性能是否受限于递归循环行为,(3)是否受累于累积记忆负担。大量实验表明,提升智能体性能不仅依赖内部推理扩展,更需显式优化智能体与环境的交互动态。

AI 推荐理由

论文聚焦TTI评估,将工作记忆作为关键维度之一进行分析。

论文信息
作者 Hang Yan, Xinyu Che, Fangzhi Xu, Qiushi Sun, Zichen Ding et al.
发布日期 2026-02-02
arXiv ID 2602.02196
相关性评分 7/10 (相关)