tool planning policy optimization long-horizon planning ant colony optimization trajectory learning
摘要

近年来,大型语言模型(LLM)代理在通过工具使用执行复杂任务方面表现出强大的能力。然而,长期多步骤工具规划仍然具有挑战性,因为探索空间面临组合爆炸问题。在此情况下,即使找到正确的工具使用路径,通常也仅被视为当前训练的即时奖励,无法为后续训练提供可重用的信息。本文认为,历史上成功的轨迹包含可重用的工具转换模式,可以在整个训练过程中加以利用。受蚁群优化算法启发,我们提出了一种基于信息素引导的策略优化方法(PhGPO),该方法从历史轨迹中学习轨迹为基础的转换模式(即信息素),并利用所学信息素指导策略优化。这种学习到的信息素提供了显式且可重用的指导,使策略优化朝着历史上成功的工具转换方向进行,从而提升长期工具规划能力。全面的实验结果验证了所提PhGPO方法的有效性。

AI 推荐理由

论文聚焦于长期多步骤工具规划问题,提出基于信息素引导的策略优化方法,直接针对规划能力的核心挑战。

论文信息
作者 Yu Li, Guangfeng Cai, Shengtian Yang, Han Luo, Shuo Han et al.
发布日期 2026-02-14
arXiv ID 2602.13691
相关性评分 9/10 (高度相关)