推理优化 强化学习 最佳优先搜索 大型语言模型
摘要

大型推理模型(LRMs)如OpenAI o1和DeepSeek-R1在使用长推理链的任务中表现出色,但同时也带来了计算成本增加和输出冗长的问题,即过度思考现象。强化学习算法如GRPO/DAPO往往会加剧这一问题。本文提出BFS-PO,一种基于最佳优先搜索策略的强化学习算法,通过最大熵节点的回溯机制寻找最短正确答案。在训练过程中,BFS-PO逐步生成更简短的响应,从而学会生成简洁的推理链。实验表明,BFS-PO能够在不同基准和基础LRMs上同时提高模型准确率并缩短回答长度。

AI 推荐理由

论文聚焦于改进大型推理模型的推理过程,提出方法以减少冗余推理并提升准确性,直接关联推理能力。

论文信息
作者 Fiorenzo Parascandolo, Wenhui Tan, Enver Sangineto, Ruihua Song, Rita Cucchiara
发布日期 2026-02-16
arXiv ID 2602.14917
相关性评分 9/10 (高度相关)