摘要
视觉-语言导航(VLN)要求智能体根据自然语言指令在未见过的环境中进行导航。近期方法越来越多地采用大语言模型(LLMs)作为高层导航器,因其灵活性和推理能力。然而,基于提示的LLM导航通常存在决策效率低的问题,因为模型必须在每一步从头开始解释指令,并对嘈杂且冗长的导航候选进行推理。本文提出了一种检索增强框架,在不修改或微调底层语言模型的情况下,提高基于LLM的VLN的效率和稳定性。该方法在两个互补层次引入检索:在情节层面,通过指令级嵌入检索器选择语义相似的成功导航轨迹作为上下文示例,为指令定位提供任务特定的先验知识;在步骤层面,通过模仿学习的候选检索器在LLM推理前剪枝无关的导航方向,减少动作模糊性和提示复杂性。两种检索模块均轻量、模块化,并独立于LLM进行训练。我们在Room-to-Room(R2R)基准上评估了该方法,实验结果表明在已见和未见环境中,成功率、Oracle成功率和SPL指标均有显著提升。消融研究进一步表明,指令级示例检索和候选剪枝分别对全局引导和步骤级决策效率有互补的贡献。这些结果表明,检索增强的决策支持是一种有效且可扩展的策略,用于增强基于LLM的视觉-语言导航。
AI 推荐理由
论文聚焦于提升基于LLM的视觉-语言导航任务中的规划效率,涉及任务分解与步骤级决策优化。
论文信息