多模态推理 链式思维 测试时扩展 统一模型
摘要

统一模型能够在单一架构中处理多模态理解和生成任务,但通常仅进行单次推理而无迭代优化。许多复杂的多模态任务需要分解指令、验证中间结果并进行迭代修正。尽管测试时扩展(TTS)已被证明能显著提升语言模型性能,但将其扩展到统一多模态模型仍是一个挑战。本文提出UniT框架,实现多模态链式思维的测试时扩展,使单一统一模型能够进行多轮推理、验证与优化。该框架结合代理数据合成、统一模型训练和灵活的测试时推理,激发包括验证、子目标分解和内容记忆等认知行为。主要发现包括:(1) 在短推理轨迹上训练的统一模型可推广至更长的推理链;(2) 顺序链式推理比并行采样更具可扩展性和计算效率;(3) 在生成和编辑轨迹上训练可提升分布外视觉推理能力。这些结果确立了多模态测试时扩展作为推动统一模型生成与理解的有效范式。

AI 推荐理由

论文聚焦于多模态模型的推理能力提升,提出通过迭代推理和链式思维进行测试时扩展。

论文信息
作者 Leon Liangyu Chen, Haoyu Ma, Zhipeng Fan, Ziqi Huang, Animesh Sinha et al.
发布日期 2026-02-12
arXiv ID 2602.12279
相关性评分 9/10 (高度相关)