摘要
近期自主大语言模型(LLM)智能体展现出通过与环境迭代交互提升性能的能力,本文将其定义为“测试时改进”(Test-Time Improvement, TTI)。然而,TTI成功或失败的内在机制尚不明确,现有评估指标难以刻画任务优化效率、错误行为后的适应能力,以及工作记忆对任务完成的具体效用。为此,本文提出TIDE(Test-time Improvement Diagnostic Evaluation)框架,该框架与智能体和环境无关,将TTI分解为三个相互关联的维度:(1)任务完成的整体时间动态,(2)性能是否受限于递归循环行为,(3)是否受累于累积记忆负担。大量实验表明,提升智能体性能不仅依赖内部推理扩展,更需显式优化智能体与环境的交互动态。
AI 推荐理由
论文聚焦TTI评估,将工作记忆作为关键维度之一进行分析。
论文信息