视觉语言模型 推理能力 思维链 认知对齐 数据合成
摘要

尽管视觉语言模型(VLMs)在图像-文本对齐方面取得了显著进展,但它们仍难以达到人类级别的视觉推理能力。当前许多VLMs依赖于表面相关性而非构建逻辑连贯的结构化表示,导致高层次语义结构和非因果关系的理解缺失,阻碍了组合性和可验证推理的发展。为了解决这些问题,本文提出CoTZero,一种无需标注的人类级视觉推理范式,包含两个核心组件:(i)双阶段数据合成方法;(ii)认知对齐训练方法。在第一部分中,CoTZero受到神经认知学关于组合生成能力和全局到局部分析的启发,在自底向上阶段提取基本视觉原语并逐步组成多样化的结构化问题-推理形式;在自顶向下阶段,利用粗粒度全局结构引导局部细节和因果关系的解释。在第二部分中,基于合成的CoT数据,引入认知一致的可验证奖励(CCVR),在强化微调(RFT)中进一步加强VLMs的层次推理与泛化能力,并提供分步反馈以确保推理的一致性和事实正确性。实验表明,CoTZero在多层级语义不一致性基准测试中达到了83.33%的F1分数,且在领域内和跨领域设置中均表现良好。消融实验确认了每个组件对更可解释和符合人类推理的视觉推理的贡献。

AI 推荐理由

论文聚焦于视觉语言模型的推理能力提升,提出基于层次合成思维链的方法增强其因果关系和语义结构理解。

论文信息
作者 Chengyi Du, Yazhe Niu, Dazhong Shen, Luxin Xu
发布日期 2026-02-09
arXiv ID 2602.08339
相关性评分 9/10 (高度相关)