摘要
强化学习(RL)为自主机器人通过试错掌握通用操作技能提供了强大范式。然而,其实际应用受到样本效率低下的严重限制。尽管最近的人机交互(HIL)方法通过人类纠正加速了训练,但这种方法面临可扩展性瓶颈。依赖人工监督者导致1:1的监督比例,限制了机器人舰队的扩展,并因操作员疲劳和人类能力不一致而引入高方差。本文提出了一种名为Agent-guided Policy Search(AGPS)的框架,通过多模态智能体替代人工监督者来自动化训练流程。我们的核心观点是,智能体可以被视为语义世界模型,通过注入内在价值先验来结构化物理探索。通过使用可执行工具,智能体提供精确的修正航路点和空间约束以进行探索剪枝。我们在两个任务上验证了该方法,从精密插入到可变形物体操作。结果表明,AGPS在样本效率方面优于HIL方法。这自动化了监督流程,为无劳动、可扩展的机器人学习铺平了道路。
AI 推荐理由
论文提出Agent指导的策略搜索框架,用于优化机器人强化学习中的探索与规划过程。
论文信息