摘要
推理能力可以显著提升大语言模型(LLM)的性能。尽管近期的研究通过调整行为相关的提示来增强推理,但这些设计仍主要依赖直觉,缺乏对底层行为模式的系统分析。本文从行为模式的角度出发,探讨了模型在回答特定类型问题时推理行为的适应性分布,并发现结构化地注入这些模式可以显著影响模型推理过程和结果的质量。基于此,我们提出了两种无需参数更新的优化方法:InjectCorrect 和 InjectRLOpt。InjectCorrect 通过模仿模型自身过去正确答案中的行为模式来引导模型;InjectRLOpt 则从历史行为模式数据中学习价值函数,并通过提出的可靠性感知Softmax策略生成行为注入内容以引导推理过程。实验表明,这两种方法可以在不修改模型参数的情况下提升模型在多种推理任务中的表现,分别达到5.34%和8.67%的性能提升。
AI 推荐理由
论文聚焦于LLM的推理行为优化,提出通过模式注入提升推理质量,属于推理能力的核心研究。
论文信息