强化学习 注意力机制 推理优化 过程监督 冗余消除
摘要

通过强化学习和可验证奖励训练的大规模推理模型在复杂推理任务中表现出色,但往往存在过度思考的问题,生成冗余推理步骤而无性能提升。现有的轨迹级长度惩罚方法难以有效缩短推理长度且会降低准确性,因为它们对所有推理步骤一视同仁,缺乏区分冗余与必要步骤的细粒度信号。同时,过程监督方法通常资源消耗大且存在信用分配不准确的问题。为解决这些问题,本文提出ATTNPO,一种低开销的过程监督强化学习框架,利用模型内在的注意力信号进行步骤级信用分配。首先识别出一组特殊的注意力头,这些注意力头自然关注关键步骤并抑制冗余步骤。通过利用这些注意力头的得分,采用两种子策略减少冗余步骤,同时通过减轻关键步骤的惩罚来保持准确性。实验结果表明,ATTNPO显著减少了推理长度,并在9个基准测试中显著提升了性能。

AI 推荐理由

论文聚焦于提升LLM的推理效率与性能,直接针对推理过程中的冗余问题进行优化。

论文信息
作者 Shuaiyi Nie, Siyu Ding, Wenyuan Zhang, Linhao Yu, Tianmeng Yang et al.
发布日期 2026-02-10
arXiv ID 2602.09953
相关性评分 9/10 (高度相关)