multimodal reasoning fact attribution verifiable reasoning model evaluation
摘要

多模态大语言模型(MLLMs)越来越多地用于需要多步骤推理和长文本生成的实际任务,其中可靠性要求模型输出基于异构输入源并验证单个事实声明。然而,现有的多模态基准和评估方法主要关注简化场景或有限模态,无法评估复杂多模态推理中的归因能力。本文引入MuRGAt(基于多模态推理的归因基准),用于评估需要超越直接观察的多模态事实级归因。给定涵盖视频、音频等多模态输入,MuRGAt要求模型生成带有明确推理和精确引用的答案,每个引用需指定模态和时间片段。为实现可靠评估,我们引入了一个与人类判断高度相关的自动评估框架。实验表明,即使强大的MLLMs在推理正确的情况下也常出现虚假引用。此外,研究发现推理深度增加或强制结构化归因往往会降低准确性,揭示了内部推理与可验证归因之间的显著差距。

AI 推荐理由

论文聚焦于多模态模型中的事实级归因与可验证推理,直接涉及LLM的推理能力与逻辑可靠性。

论文信息
作者 David Wan, Han Wang, Ziyang Wang, Elias Stengel-Eskin, Hyunji Lee et al.
发布日期 2026-02-12
arXiv ID 2602.11509
相关性评分 9/10 (高度相关)