GENIUS：生成性流体智能评估套件

生成性流体智能多模态模型评估动态推理上下文适应

摘要

统一多模态模型（UMMs）在视觉生成方面取得了显著进展。然而，现有基准主要评估晶体智力，即依赖于回忆积累知识和学习模式的能力。这种关注忽略了生成性流体智能（GFI），即在即时情境中归纳模式、通过约束进行推理并适应新场景的能力。为严格评估这一能力，我们引入了GENIUS（生成性流体智能评估套件）。我们将GFI形式化为三个基本要素的综合：归纳隐式模式（如推断个性化视觉偏好）、执行临时约束（如可视化抽象隐喻）以及适应上下文知识（如模拟反直觉物理）。这些要素共同挑战模型解决完全基于即时情境的问题。对12个代表性模型的系统评估揭示了这些任务中的显著性能缺陷。关键的是，我们的诊断分析区分了这些失败模式，表明问题源于有限的情境理解而非内在生成能力不足。为弥补这一差距，我们提出了一种无需训练的注意力干预策略。最终，GENIUS为GFI建立了严格的评估标准，引导该领域从知识利用转向动态、通用的推理。

AI 推荐理由

论文聚焦于评估模型的生成性流体智能，涉及模式归纳、约束执行和上下文适应，属于推理能力的核心研究。

论文信息

作者 Ruichuan An, Sihan Yang, Ziyu Guo, Wei Dai, Zijun Shen et al.

发布日期 2026-02-11

arXiv ID 2602.11144