摘要
测试时扩展已被广泛用于提升大语言模型(LLM)智能体在软件工程任务中的能力,但传统方法通过从头反复采样轨迹导致计算开销巨大。现有方法虽尝试引入专用价值评估模型以降低成本,却易受模型校准偏差影响,且难以泛化至能合成自定义bash脚本工具的现代智能体。本文提出SWE-Replay,首个无需依赖潜在噪声价值估计、高效且可泛化的测试时扩展技术。该方法通过复用先前试验中的轨迹,在关键中间步骤动态选择从头探索或利用存档经验进行分支,其分支决策基于代码仓库探索的潜力与推理重要性,而非外部LLM的质量评估。实验表明,在SWE-Bench Verified上,SWE-Replay在降低最多17.4%成本的同时,性能提升最高达3.8%;在SWE-Bench Pro和Multilingual上的进一步验证证实了其良好泛化能力。
AI 推荐理由
利用轨迹重放机制复用历史经验,涉及记忆存储与检索,但非核心记忆架构研究。
论文信息