Agent Memory Mechanistic Interpretability
摘要

基于可验证奖励的强化学习(RLVR)虽能有效提升大语言模型的推理能力,但近期研究表明,即使使用虚假或错误的奖励,如Qwen 2.5等模型仍能获得显著性能提升。本文发现这一现象背后存在“困惑度悖论”:虚假RLVR导致答案词元的困惑度下降,但提示侧的语义连贯性却退化,表明模型倾向于绕过推理而依赖记忆。通过路径修补、Logit Lens、JSD分析和神经微分方程,作者识别出一个隐藏的“锚点-适配器”回路:中层(L18–20)的功能锚点触发记忆检索,后续层(L21+)的结构适配器则调整表征以适应该捷径信号。进一步实验表明,调控该回路中特定MLP键可实现对污染驱动性能的双向因果干预。本研究为识别与缓解RLVR调优模型中的数据污染提供了机制性路线图。

AI 推荐理由

论文揭示LLM在RLVR中通过记忆捷径绕过推理,深入分析记忆激活机制。

论文信息
作者 Lecheng Yan, Ruizhe Li, Guanhua Chen, Qing Li, Jiahui Geng et al.
发布日期 2026-01-16
arXiv ID 2601.11061
相关性评分 8/10 (高度相关)