摘要
长篇临床视频在基于视觉证据的决策中起着核心作用,尤其在手术机器人等应用中日益重要。然而,当前多模态大语言模型通常采用被动采样或弱关联检查的方式处理视频,限制了其对时间定位证据进行迭代定位、验证和解释的能力。为弥补这一不足,本文提出MedScope,一种用于临床视频推理的工具使用模型,能够在长篇流程中进行粗到细的证据搜索。通过将中间推理与目标工具调用及检索观察的验证相结合,MedScope生成更准确且可信的预测,并明确基于时间定位的视觉证据。为解决高保真监督数据的缺乏,我们构建了ClinVideoSuite,一个以证据为中心的细粒度临床视频数据集。随后,我们使用基于定位对齐奖励和证据加权优势的Grounding-Aware Group Relative Policy Optimization(GA-GRPO)优化MedScope,直接强化工具使用。在完整和细粒度视频理解基准测试中,MedScope在领域内和领域外评估中均达到最先进水平。该方法为能够真正‘以视频思考’的医疗AI代理提供了路径。
AI 推荐理由
论文聚焦于通过工具调用实现临床视频中的推理,强调基于视频证据的推理过程。
论文信息