摘要
为解决复杂和隐含的视觉需求,近期统一多模态模型越来越多地采用思维链推理来指导图像生成。然而,推理对视觉合成的实际效果仍不清楚。本文提出UReason,一个用于评估推理驱动图像生成的诊断基准,检验推理是否能忠实地在像素层面执行。UReason包含五个任务类别(代码、算术、空间、属性和文本推理)共2000个实例。通过引入比较直接生成、推理引导生成和去上下文生成的评估框架,我们发现了一个普遍存在的‘推理悖论’:推理轨迹通常比直接生成提升性能,但保留中间思考作为条件上下文往往会阻碍视觉合成,而仅基于精炼提示的生成则显著提升效果。分析表明瓶颈在于上下文干扰而非推理能力不足。UReason为研究统一模型中的推理提供了一个原理性测试平台,并激励未来有效整合推理以进行视觉生成同时缓解干扰的方法。
AI 推荐理由
论文核心研究统一多模态模型中的推理能力及其对图像生成的影响,直接涉及推理机制与性能评估。
论文信息