摘要
在计算机视觉领域,对多模态大语言模型(MLLMs)进行空间推理的基准测试因其对具身人工智能和需要与物理世界精确交互的智能体系统的重要性而受到越来越多的关注。然而,在地球影像上的空间推理仍相对滞后,因为其涉及将物体定位在地理参考图像中,并利用视觉线索和矢量几何坐标(如二维边界框、折线和多边形)进行定量方向、距离和拓扑关系推理。现有的地球影像基准主要关注二维空间定位、图像描述和粗略空间关系,缺乏对定量方向和距离推理、系统性拓扑关系以及超出边界框的复杂对象几何的支持。为弥补这一不足,我们提出了EarthSpatialBench,一个用于评估MLLMs在地球影像上空间推理能力的综合性基准。该基准包含超过325,000个问答对,涵盖:(1) 关于空间距离和方向的定性和定量推理;(2) 系统性的拓扑关系;(3) 单对象查询、对象对查询和组合聚合组查询;以及(4) 通过文本描述、视觉叠加和显式几何坐标(包括二维边界框、折线和多边形)表达的对象引用。我们在开源和专有模型上进行了广泛的实验,以识别MLLMs在空间推理方面的局限性。
AI 推荐理由
论文聚焦于多模态大语言模型在地球影像中的空间推理能力,属于推理能力的核心研究。
论文信息