摘要
解决开放性科学问题仍然是大型语言模型面临的挑战,尤其由于监督和评估本身存在不可靠性。瓶颈在于科学微调阶段的数据构建与奖励设计。本文开发了一个大规模、系统的数据处理流程,将异构的开源科学数据转化为Dr. SCI数据集,包含八个STEM学科的100万个问题,并具有可验证的开放性问题划分、可扩展的难度标注以及细粒度评分标准,以操作化评估开放性答案。基于该数据集,本文提出了Dr. SCI微调流程,通过三个组件重新设计了标准的SFT->RL工作流:(i) 探索扩展SFT,在强化学习前拓宽模型的推理模式覆盖范围;(ii) 动态难度课程,根据模型科学能力的演变调整训练数据;(iii) SciRubric引导的RL,通过基于评分标准的评估实现对开放性科学问题的稳定强化学习。使用Dr. SCI流程训练的Qwen3-4B-Base在GPQA-diamond上达到63.2分,在GPQA-general上达到32.4分,显著优于如o1-mini和GPT-4o等强基线模型,展示了在科学推理方面的显著提升,尤其是在开放性设置中。
AI 推荐理由
论文聚焦于提升LLM的科学推理能力,涉及数据构建、奖励设计和训练流程优化。
论文信息