摘要
大型语言模型(LLMs)在推理能力方面表现出色,但在科学推理任务中仍存在脆弱性,主要由于解决方案评估不可靠且验证策略多样性有限。本文提出Sci-CoE,一种两阶段的科学共进化框架,使模型能够在从稀疏监督过渡到无监督学习的过程中,同时作为求解器和验证器进行自我进化。第一阶段中,模型利用少量标注数据为验证器建立基础正确性判断锚点;第二阶段引入几何奖励机制,综合考虑共识性、可靠性和多样性,推动大规模无标签数据的自迭代。实验表明,Sci-CoE提升了复杂推理能力并具有良好的可扩展性,有助于构建更稳健和多样的评估系统。
AI 推荐理由
论文聚焦于科学推理能力的提升,提出共进化框架以增强LLM的推理与验证机制。
论文信息