从潜在信号到反思行为：追踪R1风格大语言模型中的元认知激活轨迹

摘要

R1风格的大语言模型因其自反能力备受关注，但其内在机制尚不明确。本文聚焦反思行为的起始点，逐层追踪其激活轨迹。通过logit lens解析token级语义，发现存在结构化进展：(i) 潜在控制层编码“思考预算”语义；(ii) 语义枢纽层浮现话语级线索（如转折点与总结提示）并主导概率分布；(iii) 行为显化层中反思行为token的采样概率显著上升。干预实验揭示了各阶段间的因果链：提示语义调节潜在控制方向的激活投影，引发语义枢纽层中线索竞争，进而调控反思行为token的采样可能性。结果表明该过程模拟了人类从潜意识监控、话语调控到显式自反的元认知路径。

AI 推荐理由

探讨LLM反思行为的内部机制，涉及元认知与信息处理过程，间接关联记忆调控。

论文信息

作者 Yanrui Du, Yibo Gao, Sendong Zhao, Jiayun Li, Haochun Wang et al.

发布日期 2026-02-02

arXiv ID 2602.01999