强化学习 多模态模型 跨模态注意力 推理优化 视觉-文本耦合
摘要

可验证奖励的强化学习(RLVR)显著提升了多模态大语言模型(MLLMs)的推理能力,但视觉证据在推理过程中的整合机制仍不明确。本文从跨模态注意力连接的角度探索多模态RLVR,发现仅有约15%的token表现出强烈的视觉-文本耦合。这些高连接性token作为锚点,将推理过程与图像关联,而大多数token则遵循语言模式。在RLVR训练过程中,信用分配自然集中在这些锚点上,随着时间推移增强了其视觉基础。基于这一发现,我们提出锚点token强化学习(AT-RL),一种轻量级框架,通过注意力拓扑的图聚类选择性地增强高连接性token。在多个规模模型(3B-32B)上的评估表明,AT-RL仅引入1.2%的开销,却使32B模型在MathVista任务中超越了72B-Instruct基线(80.2),并在STEM、视频和通用任务中均取得稳定提升。相反,仅训练低连接性token会导致严重退化,证实有效的多模态强化学习依赖于对视觉锚点的精确信用分配。本研究揭示推理质量由跨模态锚定的准确性决定,而非token数量。

AI 推荐理由

论文聚焦于多模态大语言模型的推理能力提升,通过强化学习与视觉证据整合机制进行深入研究。

论文信息
作者 Zhengbo Jiao, Shaobo Wang, Zifan Zhang, Wei Wang, Bing Zhao et al.
发布日期 2026-02-12
arXiv ID 2602.11455
相关性评分 9/10 (高度相关)