通过回滚增强学习视觉语言模型的自我纠正能力

视觉语言模型自我纠正强化学习推理能力回滚增强

摘要

自我纠正是解决视觉语言模型（VLMs）复杂推理问题的关键。然而，现有的强化学习方法在学习自我纠正方面存在困难，因为有效的自我纠正行为极为罕见，导致学习信号极其稀疏。为了解决这一挑战，我们提出了一种基于回滚增强的框架Octopus，该框架通过重新组合现有回滚生成密集的自我纠正示例。这种增强方法通过回滚重用提高了样本效率，并通过平衡监督稳定了强化学习优化。此外，我们引入了一种响应掩码策略，将自我纠正与直接推理解耦，避免了信号冲突，使两种行为都能有效学习。在此基础上，我们提出了Octopus-8B，一种具有可控自我纠正能力的推理VLM。在7个基准测试中，其表现优于开源VLM中的最先进模型，在每步训练时间仅为0.72倍的情况下，比最佳RLVR基线高出1.0分。

AI 推荐理由

论文聚焦于视觉语言模型的自我纠正能力，属于推理能力提升的核心研究。

论文信息

作者 Yi Ding, Ziliang Qiu, Bolian Li, Ruqi Zhang

发布日期 2026-02-09

arXiv ID 2602.08503