摘要
理解和处理包含段落、图表和表格等多模态块的长上下文多模态文档具有挑战性,主要由于跨模态异质性和跨页推理需求。为解决这些问题,本文提出了一种以查询为中心的框架MLDocRAG,通过构建多模态块-查询图(MCQG)来组织文档内容,该图基于细粒度查询将不同模态和页面的信息进行关联。该方法实现了选择性检索和结构化证据聚合,从而提升了多模态长上下文问答任务中的准确性和连贯性。实验表明,MLDocRAG在MMLongBench-Doc和LongDocURL数据集上显著提升了检索质量和答案准确性。
AI 推荐理由
论文聚焦于多模态长文理解中的跨模态与跨页推理问题,提出基于查询的结构化方法提升推理能力。
论文信息