摘要
大型推理模型(LRMs)表现出色,但其生成的推理过程往往看似合理却未能真实反映决策过程,从而影响其可靠性和信任度。本文提出了一种形式化的推理可信度框架,定义了两个可测试条件:立场一致性(推理与答案之间的连贯性)和因果影响(在输出级干预下,陈述的推理是否因果驱动答案),并明确将其与准确性解耦。为此,我们提出了RFEval基准测试集,包含7,186个实例,通过受控的输出级反事实干预来探测推理可信度。评估十二个开源LRMs后发现,49.7%的输出存在不可信问题,主要源于立场不一致。失败案例集中在数学和代码等脆弱且收敛领域,并与训练后策略相关性更高而非模型规模。关键发现是,准确性并非推理可信度的充分或可靠代理:控制模型和任务后,准确率与可信度之间的关联较弱且无统计显著性。本研究建立了一种严格的审计方法,表明可信AI不仅需要正确结果,还需优化推理过程的结构完整性。
AI 推荐理由
论文聚焦于大推理模型的推理过程可靠性,直接涉及推理能力的核心问题。
论文信息