摘要
统一多模态模型(UMMs)在视觉生成方面取得了显著进展。然而,现有基准主要评估晶体智力,即依赖于回忆积累知识和学习模式的能力。这种关注忽略了生成性流体智能(GFI),即在即时情境中归纳模式、通过约束进行推理并适应新场景的能力。为严格评估这一能力,我们引入了GENIUS(生成性流体智能评估套件)。我们将GFI形式化为三个基本要素的综合:归纳隐式模式(如推断个性化视觉偏好)、执行临时约束(如可视化抽象隐喻)以及适应上下文知识(如模拟反直觉物理)。这些要素共同挑战模型解决完全基于即时情境的问题。对12个代表性模型的系统评估揭示了这些任务中的显著性能缺陷。关键的是,我们的诊断分析区分了这些失败模式,表明问题源于有限的情境理解而非内在生成能力不足。为弥补这一差距,我们提出了一种无需训练的注意力干预策略。最终,GENIUS为GFI建立了严格的评估标准,引导该领域从知识利用转向动态、通用的推理。
AI 推荐理由
论文聚焦于评估模型的生成性流体智能,涉及模式归纳、约束执行和上下文适应,属于推理能力的核心研究。
论文信息