agent planning meta-planning task-specific architecture reinforcement learning
摘要

规划已成为当代智能体系统在处理复杂、长期任务中的核心能力,但现有方法主要依赖于固定的手工规划结构,缺乏对开放性问题结构多样性的适应性。为解决这一限制,本文引入TodoEvolve,一种元规划范式,能够自主合成并动态修订任务特定的规划架构。具体而言,首先构建PlanFactory,一个模块化的设计空间,通过统一代码库标准化多种规划范式,涵盖拓扑、初始化、适应和导航,从而为异构规划模式提供通用接口。利用PlanFactory,收集高质量的规划轨迹,并通过Impedance-Guided Preference Optimization(IGPO)训练Todo-14B,该多目标强化学习目标鼓励生成在任意任务和智能体主干上均具有高性能、稳定性及高效性的规划系统。实证评估表明,TodoEvolve在五个智能体基准测试中始终优于精心设计的规划模块,同时保持较低的API成本和运行开销。

AI 推荐理由

论文核心围绕Agent的规划系统设计与进化,提出自主合成和动态调整任务特定规划架构的方法。

论文信息
作者 Jiaxi Liu, Yanzuo Jiang, Guibin Zhang, Zihan Zhang, Heng Chang et al.
发布日期 2026-02-08
arXiv ID 2602.07839
相关性评分 10/10 (高度相关)