元认知 自反机制
摘要

R1风格的大语言模型因其自反能力备受关注,但其内在机制尚不明确。本文聚焦反思行为的起始点,逐层追踪其激活轨迹。通过logit lens解析token级语义,发现存在结构化进展:(i) 潜在控制层编码“思考预算”语义;(ii) 语义枢纽层浮现话语级线索(如转折点与总结提示)并主导概率分布;(iii) 行为显化层中反思行为token的采样概率显著上升。干预实验揭示了各阶段间的因果链:提示语义调节潜在控制方向的激活投影,引发语义枢纽层中线索竞争,进而调控反思行为token的采样可能性。结果表明该过程模拟了人类从潜意识监控、话语调控到显式自反的元认知路径。

AI 推荐理由

探讨LLM反思行为的内部机制,涉及元认知与信息处理过程,间接关联记忆调控。

论文信息
作者 Yanrui Du, Yibo Gao, Sendong Zhao, Jiayun Li, Haochun Wang et al.
发布日期 2026-02-02
arXiv ID 2602.01999
相关性评分 6/10 (相关)