摘要
大型推理模型(LRMs)通过生成长推理轨迹并进行反思来实现强大的性能。通过对大规模数据的实证分析发现,大量反思步骤包含重复确认中间结果的自我验证(重新检查)。这些重新检查在不同模型和基准测试中频繁出现,但绝大多数是确认性而非纠正性的,很少能发现错误或改变推理结果。这表明自我验证的激活频率与其实际效用之间存在不匹配。为此,我们提出了一种基于经验的测试时框架,以减少过度使用的验证。该方法检测重新检查行为的激活,参考历史验证结果的经验池,并通过高效检索估计是否可能不需要重新检查。当历史经验表明无需检查时,会发出抑制信号引导模型继续执行。在多个模型和基准测试中,我们的方法在保持准确率的同时减少了高达20.3%的token使用量,在某些数据集上甚至提升了准确率。
AI 推荐理由
论文探讨了LLM推理中自我验证机制的过度使用问题,与Agent Memory中的反思和验证机制相关。
论文信息