摘要
具身思维链(CoT)推理显著提升了视觉-语言-动作(VLA)模型的性能,但现有方法依赖于固定的模板来指定推理原语(如场景中的物体、高层计划、结构可操作性)。这些模板可能导致策略处理无关信息,从而干扰关键动作预测信号。本文提出R&B-EnCoRe方法,通过自监督精炼从互联网规模知识中引导具身推理。该方法将推理视为重要加权变分推断中的潜在变量,无需外部奖励、验证器或人工标注即可生成并提炼出特定具身策略的推理训练数据集。实验在多种具身系统(如机械臂、腿部导航、自动驾驶)上验证了该方法的有效性,结果显示其在操作成功率、导航得分和碰撞率等指标上均有显著提升。
AI 推荐理由
论文核心聚焦于具身推理的自监督引导,直接涉及推理机制与策略优化。
论文信息