SWE-Replay：面向软件工程智能体的高效测试时扩展方法

摘要

测试时扩展已被广泛用于提升大语言模型（LLM）智能体在软件工程任务中的能力，但传统方法通过从头反复采样轨迹导致计算开销巨大。现有方法虽尝试引入专用价值评估模型以降低成本，却易受模型校准偏差影响，且难以泛化至能合成自定义bash脚本工具的现代智能体。本文提出SWE-Replay，首个无需依赖潜在噪声价值估计、高效且可泛化的测试时扩展技术。该方法通过复用先前试验中的轨迹，在关键中间步骤动态选择从头探索或利用存档经验进行分支，其分支决策基于代码仓库探索的潜力与推理重要性，而非外部LLM的质量评估。实验表明，在SWE-Bench Verified上，SWE-Replay在降低最多17.4%成本的同时，性能提升最高达3.8%；在SWE-Bench Pro和Multilingual上的进一步验证证实了其良好泛化能力。

AI 推荐理由

利用轨迹重放机制复用历史经验，涉及记忆存储与检索，但非核心记忆架构研究。

论文信息

作者 Yifeng Ding, Lingming Zhang

发布日期 2026-01-29

arXiv ID 2601.22129