持续学习 后训练优化 自我进化 补偿性学习
摘要

随着后训练优化成为提升大语言模型的关键手段,研究发现当模型变得高度自信时,进一步训练的效果逐渐减弱。本文提出WMSS(弱代理可使强代理更强)范式,利用模型历史中的弱状态作为信息监督信号,通过熵动态识别可恢复的学习差距,并通过补偿性学习进行强化。实验表明,该方法在数学推理和代码生成任务中有效提升了模型性能,且不增加推理成本。

AI 推荐理由

论文聚焦于通过弱状态引导强模型的持续优化,属于自我进化与持续学习的核心机制。

论文信息
作者 Zehao Chen, Gongxun Li, Tianxiang Ai, Yifei Li, Zixuan Huang et al.
发布日期 2026-02-09
arXiv ID 2602.08222
相关性评分 9/10 (高度相关)