视觉强化学习 医学影像 推理增强 模型微调
摘要

尽管最近在强化微调(RFT)方面的进展表明基于规则的奖励方案可以有效实现大语言模型的后训练,但其在跨模态、以视觉为中心的领域中的扩展仍鲜有研究。这一限制在医学影像领域尤为明显,因为有效性能需要稳健的视觉感知和结构化推理。本文提出VRFT-Aug,一种针对医学领域的视觉强化微调框架。VRFT-Aug引入了一系列训练策略,旨在增强感知和推理能力,包括先验知识注入、感知驱动的策略优化、医学指导的奖励塑造以及行为模仿。通过在多个医学数据集上的广泛实验,我们证明我们的方法在标准监督微调和RFT基线方法上表现更优。此外,我们提供了基于实证的见解和实用训练启发式方法,这些方法可推广到其他医学图像任务中。我们希望本工作为开发可靠且具备推理能力的高风险医学应用模型提供可行的指导和新的灵感。

AI 推荐理由

论文重点研究了通过增强感知和推理能力来改进视觉强化微调,直接涉及推理机制的优化。

论文信息
作者 Guangjing Yang, ZhangYuan Yu, Ziyuan Qin, Xinyuan Song, Huahui Yi et al.
发布日期 2026-02-11
arXiv ID 2602.10619
相关性评分 9/10 (高度相关)