摘要
随着后训练优化成为提升大语言模型的关键手段,研究发现当模型变得高度自信时,进一步训练的效果逐渐减弱。本文提出WMSS(弱代理可使强代理更强)范式,利用模型历史中的弱状态作为信息监督信号,通过熵动态识别可恢复的学习差距,并通过补偿性学习进行强化。实验表明,该方法在数学推理和代码生成任务中有效提升了模型性能,且不增加推理成本。
AI 推荐理由
论文聚焦于通过弱状态引导强模型的持续优化,属于自我进化与持续学习的核心机制。
论文信息