摘要
临床决策需要对异质性证据进行细致的推理,并提供可追溯的依据。尽管最近的LLM多智能体系统(MAS)展现出潜力,但它们主要优化结果准确性,而忽视了与临床标准一致的过程导向推理。本文以基因-疾病有效性整理为例,引入了一个基于工具的强化学习框架,旨在确保推理遵循有效的临床路径,并通过分层多智能体系统实现高效协调。在ClinGen数据集上的评估表明,仅使用结果奖励时,GRPO训练的Qwen3-4B监督智能体显著提升了最终结果准确性,但过程一致性较差;而在结合过程与结果奖励的情况下,该方法不仅提高了结果准确性,还显著改善了过程一致性。
AI 推荐理由
论文聚焦于临床推理过程的监督与优化,强调符合临床标准的推理路径。
论文信息