摘要
智能体编程需要智能体能够有效与运行时环境(如命令行界面)交互,以完成诸如解决依赖问题、修复系统问题等任务。然而,如何在大规模上获取此类环境密集型任务以提升智能体能力仍是一个未被充分探索的问题。为此,本文基于Dockerfile与智能体任务之间的类比,提出利用智能体模拟和探索环境历史,并通过执行反馈进行引导。通过追踪健康环境的历史状态,将其逆向为存在运行时故障的早期状态,并将错误状态及对应错误信息打包生成任务。该方法命名为CLI-Gym,共生成1,655个环境密集型任务,是同类任务的最大集合。此外,结合精心整理的成功轨迹,本文提出的微调模型LiberCoder在Terminal-Bench基准测试中实现了显著的绝对提升(+21.1%,达到46.1%),优于多种强基线模型。据我们所知,这是首个公开的环境密集型任务可扩展生成管道。
AI 推荐理由
论文聚焦于通过环境逆向生成任务,用于增强Agent的规划与执行能力,属于规划能力的核心研究。
论文信息