用于可验证推理的多模态事实级归因

multimodal reasoning fact attribution verifiable reasoning model evaluation

摘要

多模态大语言模型（MLLMs）越来越多地用于需要多步骤推理和长文本生成的实际任务，其中可靠性要求模型输出基于异构输入源并验证单个事实声明。然而，现有的多模态基准和评估方法主要关注简化场景或有限模态，无法评估复杂多模态推理中的归因能力。本文引入MuRGAt（基于多模态推理的归因基准），用于评估需要超越直接观察的多模态事实级归因。给定涵盖视频、音频等多模态输入，MuRGAt要求模型生成带有明确推理和精确引用的答案，每个引用需指定模态和时间片段。为实现可靠评估，我们引入了一个与人类判断高度相关的自动评估框架。实验表明，即使强大的MLLMs在推理正确的情况下也常出现虚假引用。此外，研究发现推理深度增加或强制结构化归因往往会降低准确性，揭示了内部推理与可验证归因之间的显著差距。

AI 推荐理由

论文聚焦于多模态模型中的事实级归因与可验证推理，直接涉及LLM的推理能力与逻辑可靠性。

论文信息

作者 David Wan, Han Wang, Ziyang Wang, Elias Stengel-Eskin, Hyunji Lee et al.

发布日期 2026-02-12

arXiv ID 2602.11509