强化学习 分层规划 信用分配 LLM代理 多步任务
摘要

训练大型语言模型(LLMs)作为交互式代理以进行多轮决策仍然具有挑战性,特别是在具有稀疏和延迟奖励的长期任务中,代理必须执行一系列动作后才能获得有意义的反馈。大多数现有的强化学习(RL)方法将LLM代理建模为在单一时间尺度上运行的扁平策略,每轮选择一个动作。在稀疏奖励环境下,这种扁平策略需要在整个轨迹上传播信用,而没有显式的时序抽象,这通常导致优化不稳定和信用分配效率低下。我们提出了HiPER,一种新颖的分层计划-执行RL框架,明确地将高层规划与低层执行分离。HiPER将策略分解为提出子目标的高层规划器和通过多个动作步骤执行这些子目标的低层执行器。为了与这一结构对齐,我们引入了一种关键技术——分层优势估计(HAE),它在规划和执行层面仔细分配信用。通过聚合每个子目标执行的回报并协调两个层级的更新,HAE提供了一个无偏梯度估计器,并且相比扁平化广义优势估计,可证明其方差更小。实证研究表明,HiPER在具有挑战性的交互基准测试中表现出色,在ALFWorld上达到97.4%的成功率,在WebShop上达到83.3%(使用Qwen2.5-7B-Instruct,分别比最佳先前方法提高6.6%和8.3%),尤其在需要多个依赖子任务的长期任务中表现突出。这些结果突显了显式分层分解对于可扩展的多轮LLM代理强化学习训练的重要性。

AI 推荐理由

论文核心研究了基于分层强化学习的规划与执行框架,直接涉及任务分解和多步计划生成。

论文信息
作者 Jiangweizhi Peng, Yuanxin Liu, Ruida Zhou, Charles Fleming, Zhaoran Wang et al.
发布日期 2026-02-18
arXiv ID 2602.16165
相关性评分 10/10 (高度相关)