基于分解的主张验证中的对齐瓶颈

主张验证证据对齐推理能力子主张错误分析

摘要

结构化主张分解常被提议用于验证复杂、多方面的主张，但实证结果不一致。我们认为这些不一致性源于两个被忽视的瓶颈：证据对齐和子主张错误分布。为更好地理解这些因素，我们引入了一个包含现实世界复杂主张的新数据集，具有时间限定的证据和人工标注的子主张证据范围。我们在两种证据对齐设置下评估分解效果：子主张对齐证据（SAE）和重复主张级证据（SRE）。结果显示，只有在证据粒度细且严格对齐时，分解才能显著提升性能。相比之下，依赖重复主张级证据的标准设置无法提升性能，甚至在多个数据集和领域中表现下降（如PHEMEPlus、MMM-Fact、COVID-Fact）。此外，我们发现，在存在噪声子主张标签的情况下，错误类型决定了下游鲁棒性。我们发现保守的“回避”策略相比激进但错误的预测能显著减少错误传播。这些发现表明，未来的主张分解框架必须优先考虑精确的证据合成，并校准子主张验证模型的标签偏差。

AI 推荐理由

论文聚焦于基于分解的主张验证中的推理瓶颈，涉及证据对齐和子主张错误分析，属于推理能力研究。

论文信息

作者 Mahmud Elahi Akhter, Federico Ruggeri, Iman Munire Bilal, Rob Procter, Maria Liakata

发布日期 2026-02-11

arXiv ID 2602.10380