时空定位 多模态LLM 智能体协作 推理代理 弱监督学习
摘要

时空视频定位(STVG)旨在根据文本查询在视频中检索目标对象或人物的时空区域。现有方法通常在预测的时间范围内逐帧进行空间定位,导致计算冗余、监督需求高且泛化能力有限。弱监督方法虽减少标注成本,但受限于数据集级别的训练范式,性能较差。为解决这些问题,本文提出一种面向开放世界和无训练场景的智能体时空定位框架(ASTG)。该框架利用多模态大语言模型构建两个专门的智能体:空间推理代理(SRA)和时间推理代理(TRA),以自主、自导的方式协作完成目标区域的检索。ASTG采用“提出-评估”范式,解耦时空推理过程,并自动化完成区域提取、验证和时间定位。借助专用视觉记忆和对话上下文,显著提升了检索效率。实验表明,该方法在主流基准测试中优于现有的弱监督和零样本方法,并可与部分全监督方法相媲美。

AI 推荐理由

论文核心围绕空间-时间推理,提出两个专门的推理代理进行自主协作推理。

论文信息
作者 Heng Zhao, Yew-Soon Ong, Joey Tianyi Zhou
发布日期 2026-02-10
arXiv ID 2602.13313
相关性评分 9/10 (高度相关)