Agent Memory Test-Time Scaling
摘要

测试时扩展已被广泛用于提升大语言模型(LLM)智能体在软件工程任务中的能力,但传统方法通过从头反复采样轨迹导致计算开销巨大。现有方法虽尝试引入专用价值评估模型以降低成本,却易受模型校准偏差影响,且难以泛化至能合成自定义bash脚本工具的现代智能体。本文提出SWE-Replay,首个无需依赖潜在噪声价值估计、高效且可泛化的测试时扩展技术。该方法通过复用先前试验中的轨迹,在关键中间步骤动态选择从头探索或利用存档经验进行分支,其分支决策基于代码仓库探索的潜力与推理重要性,而非外部LLM的质量评估。实验表明,在SWE-Bench Verified上,SWE-Replay在降低最多17.4%成本的同时,性能提升最高达3.8%;在SWE-Bench Pro和Multilingual上的进一步验证证实了其良好泛化能力。

AI 推荐理由

利用轨迹重放机制复用历史经验,涉及记忆存储与检索,但非核心记忆架构研究。

论文信息
作者 Yifeng Ding, Lingming Zhang
发布日期 2026-01-29
arXiv ID 2601.22129
相关性评分 6/10 (相关)