摘要
强化学习已成为语言模型从环境奖励或反馈中学习的核心方法。然而,在实践中,环境反馈通常是稀疏且延迟的,这使得学习过程极具挑战性。本文提出了一种名为经验强化学习(Experiential Reinforcement Learning, ERL)的新训练范式,该方法在强化学习过程中嵌入了显式的经验-反思-巩固循环。在给定任务时,模型首先生成初步尝试,接收环境反馈,并基于反馈生成反思以指导后续优化尝试。这一过程将反馈转化为结构化的行为修正,提升了探索效率并稳定了优化过程,同时无需额外推理成本即可保留部署时的性能提升。实验表明,在稀疏奖励控制环境和智能体推理基准测试中,ERL显著优于现有强化学习基线,复杂多步环境中性能提升高达81%,工具使用推理任务中提升达11%。这些结果表明,将显式自我反思整合到策略训练中,为将反馈转化为持久行为改进提供了一种实用机制。
AI 推荐理由
论文提出通过显式自我反思机制提升强化学习中的推理与行为优化,直接关联到推理能力的改进。
论文信息