向内看以探索向外：通过分层强化学习从LLM内部状态中学习温度策略

强化学习温度策略数学推理 LLM优化

摘要

基于可验证奖励的强化学习（RLVR）通过采样轨迹训练大型语言模型（LLMs），使解码策略成为学习过程的核心组成部分，而非单纯的推理时选择。采样温度直接影响探索与利用的权衡，但现有方法依赖静态值或启发式调整，与任务级奖励脱节。本文提出Introspective LLM，一种分层强化学习框架，能够在生成过程中学习控制采样温度。在每个解码步骤中，模型根据其隐藏状态选择温度，并从结果分布中采样下一个标记。温度和标记策略通过坐标上升方案联合优化，以下游奖励为依据。在数学推理基准测试中的实验表明，所学温度策略优于固定和启发式基线，并表现出与推理不确定性一致的可解释探索行为。

AI 推荐理由

论文聚焦于通过温度策略提升LLM的推理能力，直接关联到数学推理任务中的探索与利用平衡。

论文信息

作者 Yixiao Zhou, Yang Li, Dongzhou Cheng, Hehe Fan, Yu Cheng

发布日期 2026-02-13

arXiv ID 2602.13035