单细胞分析 组学推理 LLM推理 生物信息学工具 任务分解
摘要

本文提出scPilot,首个系统性框架用于实践组学原生推理:大型语言模型(LLM)通过自然语言对话,直接检查单细胞RNA-seq数据和按需生物信息学工具。scPilot将核心单细胞分析任务(如细胞类型注释、发育轨迹重建和转录因子靶向)转化为需要模型逐步解决、解释并根据新证据修订的推理问题。为评估进展,作者发布了scBench,包含9个专家精心整理的数据集和评分器,以准确评估scPilot相对于各种LLM的组学原生推理能力。实验表明,迭代组学原生推理可提升细胞类型注释的平均准确率11%,Gemini-2.5-Pro相比一次性提示法可减少30%的轨迹图编辑距离,同时生成透明的推理过程以解释标记基因的模糊性和调控逻辑。通过将LLM扎根于原始组学数据,scPilot实现了可审计、可解释且具有诊断信息的单细胞分析。

AI 推荐理由

论文核心围绕LLM在单细胞数据分析中的推理能力展开,直接涉及推理机制与任务分解。

论文信息
作者 Yiming Gao, Zhen Wang, Jefferson Chen, Mark Antkowiak, Mengzhou Hu et al.
发布日期 2026-02-12
arXiv ID 2602.11609
相关性评分 10/10 (高度相关)