摘要
自我纠正是解决视觉语言模型(VLMs)复杂推理问题的关键。然而,现有的强化学习方法在学习自我纠正方面存在困难,因为有效的自我纠正行为极为罕见,导致学习信号极其稀疏。为了解决这一挑战,我们提出了一种基于回滚增强的框架Octopus,该框架通过重新组合现有回滚生成密集的自我纠正示例。这种增强方法通过回滚重用提高了样本效率,并通过平衡监督稳定了强化学习优化。此外,我们引入了一种响应掩码策略,将自我纠正与直接推理解耦,避免了信号冲突,使两种行为都能有效学习。在此基础上,我们提出了Octopus-8B,一种具有可控自我纠正能力的推理VLM。在7个基准测试中,其表现优于开源VLM中的最先进模型,在每步训练时间仅为0.72倍的情况下,比最佳RLVR基线高出1.0分。
AI 推荐理由
论文聚焦于视觉语言模型的自我纠正能力,属于推理能力提升的核心研究。
论文信息