多模态推理 深度搜索 基准测试 跨模态信息整合 多跳推理
摘要

随着多模态大语言模型(MLLMs)在规划和工具使用能力上的不断提升,它们正逐渐演变为能够在开放世界环境中执行多模态网页浏览和深度搜索的自主代理。然而,现有的多模态浏览基准在任务复杂性、证据可访问性和评估粒度方面仍存在局限,阻碍了对深度搜索能力进行全面且可复现的评估。为了解决这些问题,我们提出了BrowseComp-$V^3$,这是一个包含300个精心挑选且具有挑战性问题的新颖基准,覆盖多个领域。该基准强调深层、多层级和跨模态的多跳推理,关键证据在文本和视觉模态中交错分布。所有支持证据必须严格公开可搜索,以确保公平性和可复现性。除了最终答案的准确性,我们还引入了一种专家验证的子目标驱动过程评估机制,能够对中间推理行为进行细粒度分析,并系统地表征能力边界。此外,我们提出了OmniSeeker,一个统一的多模态浏览代理框架,集成了多样化的网络搜索和视觉感知工具。全面实验表明,即使最先进的模型在本基准上的准确率也只有36%,揭示了多模态信息整合和细粒度感知方面的关键瓶颈。我们的结果突显了当前模型能力与现实场景中稳健多模态深度搜索之间的根本差距。

AI 推荐理由

论文聚焦于多模态搜索中的深层、跨模态推理,强调多层级和跨模态的多跳推理机制。

论文信息
作者 Huanyao Zhang, Jiepeng Zhou, Bo Li, Bowen Zhou, Yanzhe Dan et al.
发布日期 2026-02-13
arXiv ID 2602.12876
相关性评分 9/10 (高度相关)