科学推理 视觉-语言模型 物理智能 课程强化学习 智能体增强
摘要

从符号操作到科学级推理是大型语言模型(LLMs)的关键前沿,而物理学作为将抽象逻辑与物理现实绑定的关键测试点。物理问题要求模型保持与宇宙法则的一致性,这需要多模态感知来支撑抽象逻辑。在奥林匹克级别,图表通常是构成性的而非说明性的,包含文本中缺失的边界条件和空间对称性等关键约束。为弥合这一视觉-逻辑差距,我们引入了P1-VL,一套专为高级科学推理设计的开源视觉-语言模型。我们的方法融合了课程强化学习和智能体增强技术,实现推理过程中的迭代自验证。在HiPhO基准测试中,我们的旗舰模型P1-VL-235B-A22B成为首个获得12枚金牌的开源视觉语言模型,并在开放源代码模型中达到最先进水平。我们的智能体增强系统在全球排名第二,仅落后于Gemini-3-Pro。除了物理领域,P1-VL还展示了卓越的科学推理能力和泛化能力,在STEM基准测试中显著优于基础模型。通过开源P1-VL,我们迈出了通用物理智能的基础一步,以更好地将视觉感知与抽象物理定律对齐,推动机器科学发现。

AI 推荐理由

论文聚焦于物理竞赛中的科学推理,强调视觉感知与抽象逻辑的结合,属于推理能力的核心研究。

论文信息
作者 Yun Luo, Futing Wang, Qianjia Cheng, Fangchen Yu, Haodi Lei et al.
发布日期 2026-02-10
arXiv ID 2602.09443
相关性评分 10/10 (高度相关)