表格问答 多智能体系统 细粒度归因 推理能力 可解释性
摘要

结构化表格上的问答任务不仅需要准确的答案,还需要明确哪些单元格支持这些答案。现有系统很少提供细粒度的归因信息,导致即使答案正确也缺乏可验证的依据,限制了其在高风险场景下的可信度。本文提出TraceBack,一个模块化的多智能体框架,用于单表问答中的可扩展、单元格级别的归因。TraceBack通过剪枝表格以保留相关行和列,将问题分解为语义连贯的子问题,并将每个答案片段与其支持的单元格对齐,捕捉中间推理步骤中使用的显式和隐式证据。为了实现系统评估,我们发布了CITEBench基准测试集,包含从ToTTo、FetaQA和AITQA中提取的短语到单元格的标注数据。此外,我们还提出了FairScore,一种无需参考答案的指标,通过比较预测单元格和答案中推导出的原子事实来估计归因的精确率和召回率。实验表明,TraceBack在多个数据集和粒度上显著优于现有基线方法,而FairScore能够紧密跟踪人类判断并保持方法间的相对排名,支持对基于表格的问答进行可解释且可扩展的评估。

AI 推荐理由

论文聚焦于表格问答中的推理过程与细粒度归因,涉及中间推理步骤的显式和隐式证据捕捉。

论文信息
作者 Tejas Anvekar, Junha Park, Rajat Jha, Devanshu Gupta, Poojah Ganesan et al.
发布日期 2026-02-13
arXiv ID 2602.13059
相关性评分 9/10 (高度相关)