摘要
多模态大语言模型(MLLMs)越来越多地用于需要多步骤推理和长文本生成的实际任务,其中可靠性要求模型输出基于异构输入源并验证单个事实声明。然而,现有的多模态基准和评估方法主要关注简化场景或有限模态,无法评估复杂多模态推理中的归因能力。本文引入MuRGAt(基于多模态推理的归因基准),用于评估需要超越直接观察的多模态事实级归因。给定涵盖视频、音频等多模态输入,MuRGAt要求模型生成带有明确推理和精确引用的答案,每个引用需指定模态和时间片段。为实现可靠评估,我们引入了一个与人类判断高度相关的自动评估框架。实验表明,即使强大的MLLMs在推理正确的情况下也常出现虚假引用。此外,研究发现推理深度增加或强制结构化归因往往会降低准确性,揭示了内部推理与可验证归因之间的显著差距。
AI 推荐理由
论文聚焦于多模态模型中的事实级归因与可验证推理,直接涉及LLM的推理能力与逻辑可靠性。
论文信息