推理能力 多模态模型 图像生成 上下文干扰 基准测试
摘要

为解决复杂和隐含的视觉需求,近期统一多模态模型越来越多地采用思维链推理来指导图像生成。然而,推理对视觉合成的实际效果仍不清楚。本文提出UReason,一个用于评估推理驱动图像生成的诊断基准,检验推理是否能忠实地在像素层面执行。UReason包含五个任务类别(代码、算术、空间、属性和文本推理)共2000个实例。通过引入比较直接生成、推理引导生成和去上下文生成的评估框架,我们发现了一个普遍存在的‘推理悖论’:推理轨迹通常比直接生成提升性能,但保留中间思考作为条件上下文往往会阻碍视觉合成,而仅基于精炼提示的生成则显著提升效果。分析表明瓶颈在于上下文干扰而非推理能力不足。UReason为研究统一模型中的推理提供了一个原理性测试平台,并激励未来有效整合推理以进行视觉生成同时缓解干扰的方法。

AI 推荐理由

论文核心研究统一多模态模型中的推理能力及其对图像生成的影响,直接涉及推理机制与性能评估。

论文信息
作者 Cheng Yang, Chufan Shi, Bo Shui, Yaokang Wu, Muzi Tao et al.
发布日期 2026-02-09
arXiv ID 2602.08336
相关性评分 9/10 (高度相关)