摘要
可验证奖励强化学习(RLVR)已被证明是提升大语言模型(LLMs)推理能力的有效方法。然而,RLVR面临元学习瓶颈:缺乏人类学习循环中固有的错误归因和经验内化机制,从而限制了细粒度信用分配和可重用知识的形成。本文提出一种名为元经验学习(MEL)的新框架,将自蒸馏获得的元经验整合到模型的参数化记忆中。基于标准RLVR,我们引入了一种设计,利用LLM的自我验证能力对正确和错误轨迹进行对比分析,识别推理错误的具体分叉点,并将其总结为可推广的元经验。通过最小化负对数似然,将元经验内化到LLM的参数化记忆中,从而生成一种语言建模奖励信号,连接正确与错误推理轨迹并促进有效知识复用。实验结果表明,MEL在多个基准测试中均取得一致改进,在不同模型规模下Pass@1指标提升了3.92%至4.73%。
AI 推荐理由
论文聚焦于提升LLM的推理能力,通过引入元经验学习机制增强其错误归因与知识复用。
论文信息