物理推理 代码生成 多模态模型评估 视频重建
摘要

评估多模态大语言模型(MLLMs)是否真正具备物理动态推理能力仍具有挑战性。现有基准主要依赖视觉问答(VQA)和预期违反(VoE)等识别类协议,这些方法往往无需明确、可测试的物理假设即可回答问题。本文提出VisPhyWorld,一个基于执行的框架,通过要求模型从视觉观察中生成可执行的模拟器代码来评估物理推理能力。通过生成可运行的代码,推断出的世界表示可以直接检查、编辑和验证,从而将物理推理与渲染过程分离。基于该框架,我们引入了VisPhyBench,包含209个评估场景,源自108个物理模板,并采用系统化协议评估模型在重建外观和再现物理合理运动方面的表现。实验表明,尽管最先进的MLLMs在语义场景理解方面表现出色,但它们在准确推断物理参数和模拟一致的物理动态方面仍存在困难。

AI 推荐理由

论文聚焦于评估模型对物理动态的推理能力,提出基于代码生成的评估框架,直接检验物理推理。

论文信息
作者 Jiarong Liang, Max Ku, Ka-Hei Hui, Ping Nie, Wenhu Chen
发布日期 2026-02-09
arXiv ID 2602.13294
相关性评分 9/10 (高度相关)