摘要
机器人实验室在自主科学发现中起着关键作用,能够实现可扩展和连续的实验执行。尽管最近的视觉-语言-动作(VLA)模型为机器人实验室提供了良好的基础,但科学实验通常涉及由多个原子任务组成的长时序任务,这对现有VLA模型构成了根本性挑战。为了应对这一挑战,本文提出了一种用于科学实验长时序任务的智能体VLA推理插件。该插件引入了基于LLM的智能体推理机制,在执行顺序操作任务时进行干预,通过显式过渡推理生成过渡的机器人动作代码,从而引导VLA模型完成缺失的过渡步骤,无需额外训练即可可靠地执行复合科学工作流程。该方法计算效率高、数据效率高,适用于开放性和长时序的机器人实验室任务。我们在现有模拟环境中构建了科学仪器和常见科学操作场景的3D资产,并验证了该方法在推理过程中将每个原子任务的成功率平均提高了42%。此外,我们还展示了该方法可以轻松从模拟环境转移到真实科学实验室。
AI 推荐理由
论文聚焦于解决科学实验中长时序任务的规划问题,提出基于LLM的代理推理机制以指导VLA模型完成复合任务。
论文信息