long-horizon planning trajectory splitting progressive RL agent training
摘要

本文介绍了KLong,一个开源的LLM代理,专门用于解决超长时域任务。其核心思想是首先通过轨迹分割监督微调(SFT)冷启动模型,然后通过渐进式强化学习(RL)进行扩展训练。具体而言,首先使用全面的SFT方案激活基础模型的基本代理能力。随后引入Research-Factory,一个自动化流程,通过收集研究论文和构建评估标准生成高质量的训练数据。利用该流程,我们构建了数千条从Claude 4.5 Sonnet(Thinking)中提炼出的超长时域轨迹。为训练这些超长轨迹,我们提出了一种新的轨迹分割SFT方法,保留早期上下文,逐步截断后期上下文,并保持子轨迹之间的重叠。此外,为了进一步提升超长时域任务的解决能力,我们提出了一种新颖的渐进式RL方法,将训练分为多个阶段,逐步延长超时时间。实验表明,KLong在PaperBench等基准测试中表现出色,并且性能提升可推广到其他编程基准如SWE-bench Verified和MLE-bench。

AI 推荐理由

论文聚焦于训练LLM代理解决超长时域任务,重点在于任务规划与多阶段训练方法。

论文信息
作者 Yue Liu, Zhiyuan Hu, Flood Sung, Jiaheng Zhang, Bryan Hooi
发布日期 2026-02-19
arXiv ID 2602.17547
相关性评分 9/10 (高度相关)