摘要
在本技术报告中,我们提出了SWE-Master,一个开源且可完全复现的后训练框架,用于构建高效的软件工程代理。SWE-Master系统性地探索了完整的代理开发流程,包括教师轨迹合成与数据整理、长时域的监督微调(SFT)、结合真实执行反馈的强化学习(RL)以及推理框架设计。从一个具有有限初始软件工程能力的开源基础模型出发,SWE-Master展示了系统优化方法如何激发强大的长时域软件工程任务解决能力。我们在SWE-bench Verified基准上对SWE-Master进行了评估,该基准是针对现实软件工程任务的标准测试集。在相同的实验设置下,使用Qwen2.5-Coder-32B模型,我们的方法达到了61.4%的解决率,显著优于现有的开源基线。通过进一步结合基于LLM的环境反馈进行测试时扩展(TTS),SWE-Master在TTS@8时达到70.8%,显示出强劲的性能潜力。SWE-Master为推进软件工程代理的可复现研究提供了实用且透明的基础。
AI 推荐理由
论文涉及Agent训练与推理过程,但未明确讨论Memory机制。
论文信息