摘要
随着大语言模型(LLMs)的发展,研究者正转向使用强化学习(RL)从跨任务的迭代、多轮交互中训练智能体。然而,多轮强化学习仍面临奖励稀疏或延迟、环境随机性强等挑战。在这一背景下,简单的轨迹采样可能阻碍利用并导致模式崩溃。本文提出TSR(Trajectory-Search Rollouts),一种训练时的方法,通过将测试时的扩展思想应用于训练阶段的轨迹生成,以提高每轮轨迹的质量。TSR采用轻量级树状搜索,在每一步选择高得分动作以构建高质量轨迹,从而提升轨迹质量并稳定学习过程,同时保持底层优化目标不变,使TSR与优化器无关。本文实现了TSR与最佳N选法、束搜索和浅层前瞻搜索相结合,并与PPO和GRPO结合,在Sokoban、FrozenLake和WebShop任务上实现最高15%的性能提升和更稳定的学习效果,仅需一次增加训练计算量。通过将搜索从推理阶段转移到训练的轨迹生成阶段,TSR为更强的多轮智能体学习提供了一种简单且通用的机制,可与现有框架和拒绝采样式选择方法互补。
AI 推荐理由
论文聚焦于多轮强化学习中的轨迹生成与规划,提出TSR方法提升任务规划质量。
论文信息