视觉-语言模型 空间推理 3D高斯点绘 物体导航 主动感知
摘要

物体导航是具身智能的核心能力,使智能体能够在未知环境中定位目标物体。尽管视觉-语言模型(VLM)的进步推动了零样本物体导航(ZSON)的发展,但现有方法通常依赖于场景抽象,将环境转换为语义地图或文本表示,导致高层决策受限于底层感知的准确性。本文提出3DGSNav,一种新颖的ZSON框架,通过将3D高斯点绘(3DGS)作为VLM的持久记忆,以增强空间推理能力。通过主动感知,3DGSNav逐步构建环境的3DGS表示,实现轨迹引导的自由视角渲染和前沿感知的第一人称视图。此外,我们设计了结构化视觉提示,并将其与思维链(CoT)提示相结合,进一步提升VLM的推理能力。在导航过程中,实时目标检测器筛选潜在目标,而由VLM驱动的主动视角切换执行目标重新验证,确保高效且可靠的识别。在多个基准测试和四足机器人上的实际实验表明,该方法在鲁棒性和性能方面均优于现有先进方法。

AI 推荐理由

论文重点提升VLM的空间推理能力,通过3DGS增强感知与决策的关联性,属于推理能力的核心研究。

论文信息
作者 Wancai Zheng, Hao Chen, Xianlong Lu, Linlin Ou, Xinyi Yu
发布日期 2026-02-12
arXiv ID 2602.12159
相关性评分 9/10 (高度相关)