摘要
大推理模型(LRMs)通过测试时扩展在复杂推理任务中表现出色,但常生成过长的思考链,导致高计算开销和延迟。本文发现,问题复杂度增加会引发更多冗余反思,从而降低准确率并增加token消耗。为此,提出自适应反思和长度协调惩罚(ARLCP)框架,通过动态平衡推理效率与准确性,引入两个关键创新:一是自适应抑制冗余反思步骤,二是根据问题复杂度校准长度惩罚。实验表明,该方法在多个数学推理基准上显著提升了效率-准确率权衡。
AI 推荐理由
论文聚焦于提升LLM的推理效率与准确性,直接涉及推理机制优化。
论文信息