摘要
多模态大语言模型(MLLM)显著提升了具身智能体在规划与推理方面的能力。然而,在面对模糊自然语言指令(如“取工具”)时,现有智能体难以平衡物理探索的高成本与人类交互的认知成本,通常将消歧视为被动感知问题,缺乏最小化总任务执行成本的策略性推理。为此,本文提出ESearch-R1——一种成本感知的具身推理框架,将交互对话(Ask)、情景记忆检索(GetMemory)和物理导航(Navigate)统一为单一决策过程,并引入异构成本感知分组相对策略优化算法(HC-GRPO),通过采样多条推理轨迹并强化那些在信息增益与异构成本(如导航时间、人类注意力)之间取得最优权衡的轨迹来优化MLLM。在AI2-THOR环境中的大量实验表明,ESearch-R1显著优于标准ReAct智能体,在提升任务成功率的同时将总操作成本降低约50%。
AI 推荐理由
论文将情景记忆检索作为核心决策模块之一,但重点在于成本感知的交互式搜索框架。
论文信息