主张验证 证据对齐 推理能力 子主张错误分析
摘要

结构化主张分解常被提议用于验证复杂、多方面的主张,但实证结果不一致。我们认为这些不一致性源于两个被忽视的瓶颈:证据对齐和子主张错误分布。为更好地理解这些因素,我们引入了一个包含现实世界复杂主张的新数据集,具有时间限定的证据和人工标注的子主张证据范围。我们在两种证据对齐设置下评估分解效果:子主张对齐证据(SAE)和重复主张级证据(SRE)。结果显示,只有在证据粒度细且严格对齐时,分解才能显著提升性能。相比之下,依赖重复主张级证据的标准设置无法提升性能,甚至在多个数据集和领域中表现下降(如PHEMEPlus、MMM-Fact、COVID-Fact)。此外,我们发现,在存在噪声子主张标签的情况下,错误类型决定了下游鲁棒性。我们发现保守的“回避”策略相比激进但错误的预测能显著减少错误传播。这些发现表明,未来的主张分解框架必须优先考虑精确的证据合成,并校准子主张验证模型的标签偏差。

AI 推荐理由

论文聚焦于基于分解的主张验证中的推理瓶颈,涉及证据对齐和子主张错误分析,属于推理能力研究。

论文信息
作者 Mahmud Elahi Akhter, Federico Ruggeri, Iman Munire Bilal, Rob Procter, Maria Liakata
发布日期 2026-02-11
arXiv ID 2602.10380
相关性评分 8/10 (高度相关)