虚假奖励悖论：从机制上理解RLVR如何激活大语言模型中的记忆捷径

摘要

基于可验证奖励的强化学习（RLVR）虽能有效提升大语言模型的推理能力，但近期研究表明，即使使用虚假或错误的奖励，如Qwen 2.5等模型仍能获得显著性能提升。本文发现这一现象背后存在“困惑度悖论”：虚假RLVR导致答案词元的困惑度下降，但提示侧的语义连贯性却退化，表明模型倾向于绕过推理而依赖记忆。通过路径修补、Logit Lens、JSD分析和神经微分方程，作者识别出一个隐藏的“锚点-适配器”回路：中层（L18–20）的功能锚点触发记忆检索，后续层（L21+）的结构适配器则调整表征以适应该捷径信号。进一步实验表明，调控该回路中特定MLP键可实现对污染驱动性能的双向因果干预。本研究为识别与缓解RLVR调优模型中的数据污染提供了机制性路线图。

AI 推荐理由

论文揭示LLM在RLVR中通过记忆捷径绕过推理，深入分析记忆激活机制。

论文信息

作者 Lecheng Yan, Ruizhe Li, Guanhua Chen, Qing Li, Jiahui Geng et al.

发布日期 2026-01-16

arXiv ID 2601.11061