机器人操作 多智能体系统 任务规划 闭环控制 视觉语言模型
摘要

基于大语言模型(LLMs)的机器人操作任务规划是一个新兴领域。现有方法依赖于专用模型、微调或提示调整,并通常以开环方式运行,缺乏对环境的鲁棒反馈,导致在动态环境中表现脆弱。本文提出MALLVI,一个结合大语言模型与视觉的多智能体框架,支持闭环反馈驱动的机器人操作。给定自然语言指令和环境图像,MALLVI生成可执行的原子动作。执行后,视觉语言模型(VLM)评估环境反馈并决定是否重复过程或进入下一步。MALLVI通过协调多个专门代理(Decomposer、Localizer、Thinker、Reflector)来管理感知、定位、推理和高层规划。可选的Descriptor代理提供初始状态的视觉记忆。Reflector通过仅重新激活相关代理实现有针对性的错误检测与恢复,避免全面重规划。仿真与真实环境实验表明,迭代闭环多代理协作提升了泛化能力,并提高了零样本操作任务的成功率。

AI 推荐理由

论文重点研究多智能体框架下的任务规划与闭环反馈机制,涉及高阶规划和动态环境适应。

论文信息
作者 Iman Ahmadi, Mehrshad Taji, Arad Mahdinezhad Kashani, AmirHossein Jadidi, Saina Kashani et al.
发布日期 2026-02-18
arXiv ID 2602.16898
相关性评分 9/10 (高度相关)