视觉-语言模型 地理定位 代理推理 工具调用 强化学习
摘要

大型视觉-语言模型(LVLMs)在地理定位任务中表现出较强的推理能力,但在现实场景中常因视觉线索稀疏、长尾分布和高度模糊而表现不佳。现有方法受限于内部知识,难以提供可验证的结果。为此,本文提出SpotAgent框架,将地理定位形式化为一种代理推理过程,通过专家级推理将视觉解释与工具辅助验证相结合。SpotAgent利用外部工具(如网络搜索、地图)通过ReAct图谱主动探索并验证视觉线索。研究引入了一个三阶段的后训练流程,包括监督微调(SFT)、基于多智能体框架合成高质量轨迹的代理冷启动阶段以及强化学习优化推理能力。此外,提出了一种空间感知动态过滤策略以提高强化学习阶段的效率。实验表明,SpotAgent在标准基准上达到最先进水平,有效缓解了幻觉问题,实现了精确且可验证的地理定位。

AI 推荐理由

论文核心围绕基于代理推理的地理定位,强调推理与工具验证的结合。

论文信息
作者 Furong Jia, Ling Dai, Wenjin Deng, Fan Zhang, Chen Hu et al.
发布日期 2026-02-10
arXiv ID 2602.09463
相关性评分 9/10 (高度相关)