large language models policy gradient complex reasoning token-level optimization block-level actions
摘要

现有的自动回归语言模型策略梯度方法通常逐个选择后续token作为动作。尽管这种方法在许多生成任务中有效,但在需要多个token共同表达一个语义决策的复杂推理任务中可能存在不匹配。为此,本文提出多token策略梯度优化(MPO)框架,将连续K个token视为统一的语义动作,以捕捉推理轨迹的组合结构,并支持更高层次的目标优化。实验表明,MPO在数学推理和编程基准测试中优于标准token级策略梯度方法,突显了token级策略梯度在复杂推理任务中的局限性,为未来研究提供了新的方向。

AI 推荐理由

论文聚焦于改进LLM在复杂推理任务中的表现,提出多token策略梯度优化方法,直接针对推理过程的结构问题。

论文信息
作者 Mufan Xu, Kehai Chen, Xuefeng Bai, Zhengyu Niu, Muyun Yang et al.
发布日期 2026-02-16
arXiv ID 2602.14386
相关性评分 9/10 (高度相关)