临床推理 证据溯源 专科医学 LLM对比实验
摘要

背景:大型语言模型在一般医学考试中表现出色,但在专科临床推理方面仍面临挑战,因为指南快速演变且证据层次复杂。方法:我们评估了基于证据的临床推理系统January Mirror,在120道内分泌学委员会风格考试题目上与前沿LLM(如GPT-5、Gemini-3-Pro)进行比较。Mirror整合了精选的内分泌和心血管代谢证据库,并采用结构化推理架构生成与证据关联的输出。结果:Mirror准确率达到87.5%,超过人类参考值62.3%及所有前沿LLM。结论:Mirror提供了可追溯的证据引用,证明精选证据在专科临床推理中优于无约束网络检索,并支持临床部署的可审计性。

AI 推荐理由

论文聚焦于临床推理系统在内分泌学考试中的表现,强调基于证据的推理架构与LLM的对比。

论文信息
作者 Amir Hosseinian, MohammadReza Zare Shahneh, Umer Mansoor, Gilbert Szeto, Kirill Karlin et al.
发布日期 2026-02-17
arXiv ID 2602.16050
相关性评分 9/10 (高度相关)