数学推理 空间推理 多模态模型 基准测试 推理框架
摘要

多模态大语言模型(MLLMs)在感知导向任务上表现出色,但其在数学空间推理方面的能力尚不明确。人类在教科书式空间推理问题上的准确率超过95%,而主流MLLMs的准确率甚至低于60%。为探究这一差距,本文提出了MathSpatial框架,包含MathSpatial-Bench基准测试集、MathSpatial-Corpus训练数据集以及MathSpatial-SRT推理模型。实验表明,在MathSpatial上微调Qwen2.5-VL-7B可显著提升推理准确性并减少计算量。该框架首次将感知与推理分离,为评估和理解MLLMs的数学空间推理能力提供了大规模资源。

AI 推荐理由

论文聚焦于多模态大语言模型在数学空间推理能力上的评估与改进,属于推理能力的核心研究。

论文信息
作者 Shuo Lu, Jianjie Cheng, Yinuo Xu, Yongcan Yu, Lijun Sheng et al.
发布日期 2026-02-12
arXiv ID 2602.11635
相关性评分 9/10 (高度相关)