生成性流体智能 多模态模型评估 动态推理 上下文适应
摘要

统一多模态模型(UMMs)在视觉生成方面取得了显著进展。然而,现有基准主要评估晶体智力,即依赖于回忆积累知识和学习模式的能力。这种关注忽略了生成性流体智能(GFI),即在即时情境中归纳模式、通过约束进行推理并适应新场景的能力。为严格评估这一能力,我们引入了GENIUS(生成性流体智能评估套件)。我们将GFI形式化为三个基本要素的综合:归纳隐式模式(如推断个性化视觉偏好)、执行临时约束(如可视化抽象隐喻)以及适应上下文知识(如模拟反直觉物理)。这些要素共同挑战模型解决完全基于即时情境的问题。对12个代表性模型的系统评估揭示了这些任务中的显著性能缺陷。关键的是,我们的诊断分析区分了这些失败模式,表明问题源于有限的情境理解而非内在生成能力不足。为弥补这一差距,我们提出了一种无需训练的注意力干预策略。最终,GENIUS为GFI建立了严格的评估标准,引导该领域从知识利用转向动态、通用的推理。

AI 推荐理由

论文聚焦于评估模型的生成性流体智能,涉及模式归纳、约束执行和上下文适应,属于推理能力的核心研究。

论文信息
作者 Ruichuan An, Sihan Yang, Ziyu Guo, Wei Dai, Zijun Shen et al.
发布日期 2026-02-11
arXiv ID 2602.11144
相关性评分 9/10 (高度相关)