摘要
结构化主张分解常被提议用于验证复杂、多方面的主张,但实证结果不一致。我们认为这些不一致性源于两个被忽视的瓶颈:证据对齐和子主张错误分布。为更好地理解这些因素,我们引入了一个包含现实世界复杂主张的新数据集,具有时间限定的证据和人工标注的子主张证据范围。我们在两种证据对齐设置下评估分解效果:子主张对齐证据(SAE)和重复主张级证据(SRE)。结果显示,只有在证据粒度细且严格对齐时,分解才能显著提升性能。相比之下,依赖重复主张级证据的标准设置无法提升性能,甚至在多个数据集和领域中表现下降(如PHEMEPlus、MMM-Fact、COVID-Fact)。此外,我们发现,在存在噪声子主张标签的情况下,错误类型决定了下游鲁棒性。我们发现保守的“回避”策略相比激进但错误的预测能显著减少错误传播。这些发现表明,未来的主张分解框架必须优先考虑精确的证据合成,并校准子主张验证模型的标签偏差。
AI 推荐理由
论文聚焦于基于分解的主张验证中的推理瓶颈,涉及证据对齐和子主张错误分析,属于推理能力研究。
论文信息