MedSAM-Agent: 借助多轮智能体强化学习提升交互式医学图像分割

医学图像分割多模态大语言模型强化学习交互式分割智能体训练

摘要

医学图像分割正从任务特定模型向通用框架发展。近期研究利用多模态大语言模型（MLLMs）作为自主代理，采用可验证奖励的强化学习（RLVR）来协调专用工具如Segment Anything Model（SAM）。然而，这些方法通常依赖单轮、僵化的交互策略，并缺乏训练过程中的过程级监督，限制了其对交互工具动态潜力的充分利用并导致冗余操作。为弥补这一不足，我们提出MedSAM-Agent框架，将交互式分割重新定义为多步骤自主决策过程。首先，我们引入一种混合提示策略以生成专家标注的轨迹，使模型能够内化类似人类的决策启发式和自适应优化策略。此外，我们开发了一个两阶段训练流程，结合多轮端到端结果验证与临床保真度过程奖励设计，以促进交互简洁性和决策效率。在6种医学模态和21个数据集上的广泛实验表明，MedSAM-Agent实现了最先进的性能，有效统一了自主医学推理与稳健的迭代优化。

AI 推荐理由

论文涉及多轮交互与过程级奖励机制，与Agent Memory相关但非唯一主题。

论文信息

作者 Shengyuan Liu, Liuxin Bao, Qi Yang, Wanting Geng, Boyun Zheng et al.

发布日期 2026-02-03

arXiv ID 2602.03320