强化学习 世界模型 策略优化 长期规划 机器人控制
摘要

强化学习(RL)有望超越模仿学习,为视觉-语言-动作(VLA)模型解锁更多能力,但其对大量现实交互的需求阻碍了其在物理机器人上的直接部署。近期研究尝试使用学习到的世界模型作为策略优化的模拟器,但闭环想象的滚动不可避免地会受到幻觉和长时域误差累积的影响。这些误差不仅降低视觉保真度,还会破坏优化信号,使策略倾向于利用模型不准确之处而非真正推进任务。本文提出WoVR,一种基于可靠世界模型的强化学习框架,用于后训练VLA策略。WoVR不假设世界模型是完全准确的,而是显式调节RL如何与不完美的想象动态交互。它通过可控的动作条件视频世界模型提高滚动稳定性,通过关键帧初始化滚动减少有效误差深度,并通过世界模型与策略的协同进化保持策略与模拟器的一致性。在LIBERO基准测试和真实世界机器人操作中的广泛实验表明,WoVR能够实现稳定的长时域想象滚动和有效的策略优化,将LIBERO平均成功率从39.95%提升至69.2%(+29.3个百分点),真实机器人成功率从61.7%提升至91.7%(+30.0个百分点)。这些结果表明,当幻觉被显式控制时,学习到的世界模型可以作为强化学习的实际模拟器。

AI 推荐理由

论文聚焦于通过世界模型进行长期规划和策略优化,直接涉及Agent的规划能力。

论文信息
作者 Zhennan Jiang, Shangqing Zhou, Yutong Jiang, Zefang Huang, Mingjie Wei et al.
发布日期 2026-02-15
arXiv ID 2602.13977
相关性评分 9/10 (高度相关)