视觉语言模型 自我纠正 强化学习 推理能力 回滚增强
摘要

自我纠正是解决视觉语言模型(VLMs)复杂推理问题的关键。然而,现有的强化学习方法在学习自我纠正方面存在困难,因为有效的自我纠正行为极为罕见,导致学习信号极其稀疏。为了解决这一挑战,我们提出了一种基于回滚增强的框架Octopus,该框架通过重新组合现有回滚生成密集的自我纠正示例。这种增强方法通过回滚重用提高了样本效率,并通过平衡监督稳定了强化学习优化。此外,我们引入了一种响应掩码策略,将自我纠正与直接推理解耦,避免了信号冲突,使两种行为都能有效学习。在此基础上,我们提出了Octopus-8B,一种具有可控自我纠正能力的推理VLM。在7个基准测试中,其表现优于开源VLM中的最先进模型,在每步训练时间仅为0.72倍的情况下,比最佳RLVR基线高出1.0分。

AI 推荐理由

论文聚焦于视觉语言模型的自我纠正能力,属于推理能力提升的核心研究。

论文信息
作者 Yi Ding, Ziliang Qiu, Bolian Li, Ruqi Zhang
发布日期 2026-02-09
arXiv ID 2602.08503
相关性评分 9/10 (高度相关)