技能学习 编码代理 任务泛化 合成任务 训练环境
摘要

在评估编码代理的质量时,现有基准主要关注解决GitHub上的单一问题,如SWE-Bench。然而,在实际应用中,这些代理需要处理更复杂多样的任务,涉及代码库探索、软件测试和架构设计等技能。本文通过分解轨迹为细粒度组件,识别出跨任务的可迁移技能,并提出辅助训练任务的设计原则。基于这些原则,我们构建了一个名为Hybrid-Gym的训练环境,包含一系列可扩展的合成任务,如函数定位和依赖搜索。实验表明,基于合成任务训练的代理能够有效泛化到未见过的真实任务,显著提升了多个基准测试的表现。此外,Hybrid-Gym还能增强下游任务的数据集性能。

AI 推荐理由

论文聚焦于训练编码代理以跨任务泛化,强调技能学习与合成任务设计,直接关联到Agent的工具使用和技能学习。

论文信息
作者 Yiqing Xie, Emmy Liu, Gaokai Zhang, Nachiket Kotalwar, Shubham Gandhi et al.
发布日期 2026-02-18
arXiv ID 2602.16819
相关性评分 9/10 (高度相关)