弱驱动学习：弱代理如何使强代理更强

持续学习后训练优化自我进化补偿性学习

摘要

随着后训练优化成为提升大语言模型的关键手段，研究发现当模型变得高度自信时，进一步训练的效果逐渐减弱。本文提出WMSS（弱代理可使强代理更强）范式，利用模型历史中的弱状态作为信息监督信号，通过熵动态识别可恢复的学习差距，并通过补偿性学习进行强化。实验表明，该方法在数学推理和代码生成任务中有效提升了模型性能，且不增加推理成本。

AI 推荐理由

论文聚焦于通过弱状态引导强模型的持续优化，属于自我进化与持续学习的核心机制。

论文信息

作者 Zehao Chen, Gongxun Li, Tianxiang Ai, Yifei Li, Zixuan Huang et al.

发布日期 2026-02-09

arXiv ID 2602.08222