双臂协调 动作规划 多模态大语言模型 机器人智能 运动学约束
摘要

多模态大语言模型(MLLMs)在具身人工智能领域取得了显著进展,将其用于评估机器人智能已成为重要趋势。然而,现有框架主要局限于单臂操作,无法捕捉如提起重锅等双臂任务所需的时空协调性。为此,我们提出了BiManiBench,一个分层基准测试框架,从基础空间推理、高层动作规划和底层末端执行器控制三个层级评估MLLMs。该框架隔离了双臂操作的独特挑战,如手臂可达性和运动学约束,从而区分感知幻觉与规划失败。对30多个前沿模型的分析表明,尽管MLLMs在高层推理方面表现出色,但在双臂空间定位和控制方面仍存在困难,常导致相互干扰和时序错误。这些发现表明当前范式缺乏对互连运动学约束的深入理解,未来研究应重点关注双臂碰撞避免和精细时间序列控制。

AI 推荐理由

论文聚焦于多模态大语言模型在双臂协调任务中的高层次动作规划与控制问题,直接涉及规划能力的核心研究。

论文信息
作者 Xin Wu, Zhixuan Liang, Yue Ma, Mengkang Hu, Zhiyuan Qin et al.
发布日期 2026-02-09
arXiv ID 2602.08392
相关性评分 9/10 (高度相关)