医学多模态模型 推理能力 持续预训练 智能体训练 诊断推理
摘要

本文提出MedXIAOHE,一种面向实际临床应用的医学视觉-语言基础模型,旨在提升通用医学理解和推理能力。该模型在多个医学基准测试中取得最先进的性能,并超越了多个领先的封闭源多模态系统。为实现这一目标,作者提出了一种基于实体感知的持续预训练框架,用于组织异构医学语料库以扩大知识覆盖范围并减少长尾差距(如罕见疾病)。为实现医学专家级别的推理与交互,MedXIAOHE通过强化学习和工具增强的智能体训练,整合了多样化的医学推理模式,支持多步骤诊断推理并提供可验证的决策轨迹。为提高实际应用中的可靠性,MedXIAOHE集成了用户偏好准则、基于证据的推理以及低幻觉的长篇报告生成,并提升了对医学指令的遵循度。本文发布此报告以记录实际设计选择、扩展见解及评估框架,希望激发进一步的研究。

AI 推荐理由

论文重点研究了医学领域的推理能力,包括多步骤诊断推理和可验证决策追踪。

论文信息
作者 Baorong Shi, Bo Cui, Boyuan Jiang, Deli Yu, Fang Qian et al.
发布日期 2026-02-13
arXiv ID 2602.12705
相关性评分 9/10 (高度相关)