TIDE：基于轨迹的大语言模型智能体测试时改进诊断评估

摘要

近期自主大语言模型（LLM）智能体展现出通过与环境迭代交互提升性能的能力，本文将其定义为“测试时改进”（Test-Time Improvement, TTI）。然而，TTI成功或失败的内在机制尚不明确，现有评估指标难以刻画任务优化效率、错误行为后的适应能力，以及工作记忆对任务完成的具体效用。为此，本文提出TIDE（Test-time Improvement Diagnostic Evaluation）框架，该框架与智能体和环境无关，将TTI分解为三个相互关联的维度：(1)任务完成的整体时间动态，(2)性能是否受限于递归循环行为，(3)是否受累于累积记忆负担。大量实验表明，提升智能体性能不仅依赖内部推理扩展，更需显式优化智能体与环境的交互动态。

AI 推荐理由

论文聚焦TTI评估，将工作记忆作为关键维度之一进行分析。

论文信息

作者 Hang Yan, Xinyu Che, Fangzhi Xu, Qiushi Sun, Zichen Ding et al.

发布日期 2026-02-02

arXiv ID 2602.02196