UReason：统一多模态模型中推理悖论的基准测试

推理能力多模态模型图像生成上下文干扰基准测试

摘要

为解决复杂和隐含的视觉需求，近期统一多模态模型越来越多地采用思维链推理来指导图像生成。然而，推理对视觉合成的实际效果仍不清楚。本文提出UReason，一个用于评估推理驱动图像生成的诊断基准，检验推理是否能忠实地在像素层面执行。UReason包含五个任务类别（代码、算术、空间、属性和文本推理）共2000个实例。通过引入比较直接生成、推理引导生成和去上下文生成的评估框架，我们发现了一个普遍存在的‘推理悖论’：推理轨迹通常比直接生成提升性能，但保留中间思考作为条件上下文往往会阻碍视觉合成，而仅基于精炼提示的生成则显著提升效果。分析表明瓶颈在于上下文干扰而非推理能力不足。UReason为研究统一模型中的推理提供了一个原理性测试平台，并激励未来有效整合推理以进行视觉生成同时缓解干扰的方法。

AI 推荐理由

论文核心研究统一多模态模型中的推理能力及其对图像生成的影响，直接涉及推理机制与性能评估。

论文信息

作者 Cheng Yang, Chufan Shi, Bo Shui, Yaokang Wu, Muzi Tao et al.

发布日期 2026-02-09

arXiv ID 2602.08336