摘要
视觉-语言-动作(VLA)模型能够将高层语言指令转化为具体的可执行动作,这在开放世界环境中尤其具有挑战性。本文提出了一种通用且高效的规划器Visual Foresight Planning(ForeAct),它通过想象未来的观察结果和子任务描述,逐步引导VLA模型。借助想象的未来观察,VLA可以专注于视觉-运动推理,而非高层语义推理,从而提升准确性和泛化能力。该规划器包含一个高效的前瞻图像生成模块,能够在H100 GPU上仅用0.33秒从当前视觉输入和语言指令生成高质量的640×480未来观察图像,并结合一个视觉-语言模型对任务进行推理,为生成器和VLA生成子任务描述。先进的VLA模型可以通过简单地增强其视觉输入来无缝集成该规划器,无需任何架构修改。前瞻性生成器在超过100万个多任务、跨形态的训练集上预训练,使其能够学习稳健的具身动态。我们在包含11个多样化、多步骤现实任务的基准上评估了该框架,平均成功率达到87.4%,比基线π₀(46.5%)提升了40.9%,比结合文本子任务引导的π₀(57.1%)提升了30.3%。
AI 推荐理由
论文核心研究了基于视觉前瞻的规划方法,用于指导VLA模型执行任务,属于规划能力的核心内容。
论文信息