摘要
医学图像分割正从任务特定模型向通用框架发展。近期研究利用多模态大语言模型(MLLMs)作为自主代理,采用可验证奖励的强化学习(RLVR)来协调专用工具如Segment Anything Model(SAM)。然而,这些方法通常依赖单轮、僵化的交互策略,并缺乏训练过程中的过程级监督,限制了其对交互工具动态潜力的充分利用并导致冗余操作。为弥补这一不足,我们提出MedSAM-Agent框架,将交互式分割重新定义为多步骤自主决策过程。首先,我们引入一种混合提示策略以生成专家标注的轨迹,使模型能够内化类似人类的决策启发式和自适应优化策略。此外,我们开发了一个两阶段训练流程,结合多轮端到端结果验证与临床保真度过程奖励设计,以促进交互简洁性和决策效率。在6种医学模态和21个数据集上的广泛实验表明,MedSAM-Agent实现了最先进的性能,有效统一了自主医学推理与稳健的迭代优化。
AI 推荐理由
论文涉及多轮交互与过程级奖励机制,与Agent Memory相关但非唯一主题。
论文信息