摘要
尽管大型语言模型(LLMs)在推理基准测试中表现出色,但它们在面对反事实问题时表现脆弱,表明其因果推理能力存在不足。虽然近期研究表明标注的反事实任务可以作为LLMs因果推理能力的基准,但生成足够规模的反事实数据以覆盖潜在空间仍面临挑战。本文提出了一种轻量级的推理时方法——双重反事实一致性(DCC),用于衡量和引导LLMs进行因果推理的能力。无需标注的反事实数据,DCC验证了模型执行因果推理两个关键要素的能力:因果干预和反事实预测。通过DCC,我们评估了多种领先LLMs在不同推理任务和干预下的因果推理能力,并展示了DCC作为训练无关的测试时拒绝采样标准的有效性,证明其可直接提升多个模型家族在推理任务中的性能。
AI 推荐理由
论文聚焦于因果推理能力的评估与提升,直接涉及LLM的推理机制。
论文信息