摘要
基于可验证奖励的强化学习(RLVR)虽能有效提升大语言模型的推理能力,但近期研究表明,即使使用虚假或错误的奖励,如Qwen 2.5等模型仍能获得显著性能提升。本文发现这一现象背后存在“困惑度悖论”:虚假RLVR导致答案词元的困惑度下降,但提示侧的语义连贯性却退化,表明模型倾向于绕过推理而依赖记忆。通过路径修补、Logit Lens、JSD分析和神经微分方程,作者识别出一个隐藏的“锚点-适配器”回路:中层(L18–20)的功能锚点触发记忆检索,后续层(L21+)的结构适配器则调整表征以适应该捷径信号。进一步实验表明,调控该回路中特定MLP键可实现对污染驱动性能的双向因果干预。本研究为识别与缓解RLVR调优模型中的数据污染提供了机制性路线图。
AI 推荐理由
论文揭示LLM在RLVR中通过记忆捷径绕过推理,深入分析记忆激活机制。
论文信息