超越基于token级策略梯度的大型语言模型复杂推理方法

large language models policy gradient complex reasoning token-level optimization block-level actions

摘要

现有的自动回归语言模型策略梯度方法通常逐个选择后续token作为动作。尽管这种方法在许多生成任务中有效，但在需要多个token共同表达一个语义决策的复杂推理任务中可能存在不匹配。为此，本文提出多token策略梯度优化（MPO）框架，将连续K个token视为统一的语义动作，以捕捉推理轨迹的组合结构，并支持更高层次的目标优化。实验表明，MPO在数学推理和编程基准测试中优于标准token级策略梯度方法，突显了token级策略梯度在复杂推理任务中的局限性，为未来研究提供了新的方向。

AI 推荐理由

论文聚焦于改进LLM在复杂推理任务中的表现，提出多token策略梯度优化方法，直接针对推理过程的结构问题。

论文信息

作者 Mufan Xu, Kehai Chen, Xuefeng Bai, Zhengyu Niu, Muyun Yang et al.

发布日期 2026-02-16

arXiv ID 2602.14386