医学图像分割 多模态大语言模型 强化学习 交互式分割 智能体训练
摘要

医学图像分割正从任务特定模型向通用框架发展。近期研究利用多模态大语言模型(MLLMs)作为自主代理,采用可验证奖励的强化学习(RLVR)来协调专用工具如Segment Anything Model(SAM)。然而,这些方法通常依赖单轮、僵化的交互策略,并缺乏训练过程中的过程级监督,限制了其对交互工具动态潜力的充分利用并导致冗余操作。为弥补这一不足,我们提出MedSAM-Agent框架,将交互式分割重新定义为多步骤自主决策过程。首先,我们引入一种混合提示策略以生成专家标注的轨迹,使模型能够内化类似人类的决策启发式和自适应优化策略。此外,我们开发了一个两阶段训练流程,结合多轮端到端结果验证与临床保真度过程奖励设计,以促进交互简洁性和决策效率。在6种医学模态和21个数据集上的广泛实验表明,MedSAM-Agent实现了最先进的性能,有效统一了自主医学推理与稳健的迭代优化。

AI 推荐理由

论文涉及多轮交互与过程级奖励机制,与Agent Memory相关但非唯一主题。

论文信息
作者 Shengyuan Liu, Liuxin Bao, Qi Yang, Wanting Geng, Boyun Zheng et al.
发布日期 2026-02-03
arXiv ID 2602.03320
相关性评分 7/10 (相关)