摘要
视觉-语言-动作(VLA)模型在机器人操作中展现出强大的泛化能力。现有方法常通过显式生成语言推理轨迹或未来视觉观测来提升动作准确性,但会引入显著推理延迟,并受限于语言表征瓶颈,难以刻画不可言传的物理属性。为此,本文提出LaST₀框架,通过隐式的时空思维链(Latent Spatio-Temporal Chain-of-Thought)实现高效推理,捕捉难以语言化的细粒度物理与机器人动态。该方法构建了一个高效的隐式思维链空间,建模未来视觉动态、三维结构信息及机器人本体感知状态,并在时间维度上扩展以形成时序一致的隐式推理轨迹。LaST₀采用混合Transformer架构的双系统设计:推理专家执行低频隐式推理,动作专家基于面向机器人的隐式表征生成高频动作,并通过异构运行频率训练实现推理与动作速率的自适应切换。在10个仿真和6个真实世界操作任务中,LaST₀相较先前VLA方法平均成功率分别提升8%和13%,同时显著加快推理速度。
AI 推荐理由
提出隐式时空推理轨迹,涉及状态记忆与时间一致性,但未聚焦传统记忆机制。
论文信息