摘要
现有的自动回归语言模型策略梯度方法通常逐个选择后续token作为动作。尽管这种方法在许多生成任务中有效,但在需要多个token共同表达一个语义决策的复杂推理任务中可能存在不匹配。为此,本文提出多token策略梯度优化(MPO)框架,将连续K个token视为统一的语义动作,以捕捉推理轨迹的组合结构,并支持更高层次的目标优化。实验表明,MPO在数学推理和编程基准测试中优于标准token级策略梯度方法,突显了token级策略梯度在复杂推理任务中的局限性,为未来研究提供了新的方向。
AI 推荐理由
论文聚焦于改进LLM在复杂推理任务中的表现,提出多token策略梯度优化方法,直接针对推理过程的结构问题。
论文信息