chain-of-thought faithfulness multi-party learning reasoning trace reinforcement learning
摘要

思维链(CoT)推理有时无法准确反映大语言模型(LLM)的真实计算过程,这限制了其在解释LLM如何得出答案方面的实用性。此外,优化推理的忠实性与可解释性通常会降低任务性能。为了解决这一权衡并提高CoT的忠实性,我们提出了多听众推理执行(REMUL),一种多方强化学习方法。REMUL基于这样的假设:其他方能够跟随的推理轨迹将更加忠实。一个说话者模型生成推理轨迹,该轨迹被截断并传递给一组听众模型,这些模型“执行”轨迹并继续生成答案。说话者因生成清晰的推理轨迹而获得奖励,并通过掩码监督微调进行额外的正确性正则化,以应对忠实性与性能之间的权衡。在多个推理基准测试(BIG-Bench Extra Hard、MuSR、ZebraLogicBench和FOLIO)上,REMUL显著提升了三个忠实性指标——提示归因、早期回答面积曲线下面积(AOC)和错误注入AOC,同时提高了准确性。我们的分析发现,这些改进在训练领域中具有鲁棒性,转化为可读性提升,并且与更短、更直接的CoT相关。

AI 推荐理由

论文聚焦于提升LLM推理过程的忠实性与性能,直接涉及推理能力的核心机制。

论文信息
作者 Nithin Sivakumaran, Shoubin Yu, Hyunji Lee, Yue Zhang, Ali Payani et al.
发布日期 2026-02-18
arXiv ID 2602.16154
相关性评分 10/10 (高度相关)