摘要
分层强化学习(HRL)框架如Option-Critic(OC)和Multi-updates Option Critic(MOC)在学习可重用选项方面取得了显著进展。然而,这些方法在具有稀疏奖励的多目标环境中表现不佳,因为动作需要与时间上遥远的结果相关联。为了解决这一限制,本文首先提出MOC-HER,将Hindsight Experience Replay(HER)机制整合到MOC框架中。通过从实现结果中重新标记目标,MOC-HER可以解决原始MOC无法处理的稀疏奖励环境。然而,这种方法对于依赖物体到达目标而非代理直接交互的任务仍不充分。为此,本文引入了双目标Hindsight Experience Replay(2HER),创建两组虚拟目标。除了基于物体最终状态重新标记目标(标准HER)外,2HER还从代理效应器位置生成目标,从而奖励代理与物体的交互以及任务完成。实验结果表明,在机器人操作环境中,MOC-2HER的成功率高达90%,而MOC和MOC-HER均低于11%。这些结果突显了双目标重新标记策略在稀疏奖励、多目标任务中的有效性。
AI 推荐理由
论文聚焦于强化学习中技能学习(options)在稀疏奖励环境下的改进,直接涉及Agent的技能学习与任务完成能力。
论文信息