摘要
大型语言模型(LLMs)在深层网络中将输入序列的表征组织为更“笔直”的神经轨迹,这被认为有助于通过线性外推进行下一词预测。本文结合表征笔直化与上下文学习(ICL)研究,考察ICL过程中上下文内部是否发生表征笔直化。在Gemma 2模型上对多种ICL任务的分析揭示了两种模式:在连续预测任务(如自然语言、网格世界遍历)中,上下文长度增加会提升轨迹笔直度,并与预测性能正相关;而在结构化预测任务(如少样本学习)中,笔直化仅出现在具有显式结构的阶段(如模板重复),其他阶段则消失。结果表明ICL并非单一过程,LLM会根据任务结构动态选择策略,仅部分策略导致表征笔直化。
AI 推荐理由
探讨上下文中的表征变化,间接关联记忆机制但非核心。
论文信息