摘要
R1风格的大语言模型因其自反能力备受关注,但其内在机制尚不明确。本文聚焦反思行为的起始点,逐层追踪其激活轨迹。通过logit lens解析token级语义,发现存在结构化进展:(i) 潜在控制层编码“思考预算”语义;(ii) 语义枢纽层浮现话语级线索(如转折点与总结提示)并主导概率分布;(iii) 行为显化层中反思行为token的采样概率显著上升。干预实验揭示了各阶段间的因果链:提示语义调节潜在控制方向的激活投影,引发语义枢纽层中线索竞争,进而调控反思行为token的采样可能性。结果表明该过程模拟了人类从潜意识监控、话语调控到显式自反的元认知路径。
AI 推荐理由
探讨LLM反思行为的内部机制,涉及元认知与信息处理过程,间接关联记忆调控。
论文信息