上下文结构重塑语言模型的表征几何

in-context learning representational geometry

摘要

大型语言模型（LLMs）在深层网络中将输入序列的表征组织为更“笔直”的神经轨迹，这被认为有助于通过线性外推进行下一词预测。本文结合表征笔直化与上下文学习（ICL）研究，考察ICL过程中上下文内部是否发生表征笔直化。在Gemma 2模型上对多种ICL任务的分析揭示了两种模式：在连续预测任务（如自然语言、网格世界遍历）中，上下文长度增加会提升轨迹笔直度，并与预测性能正相关；而在结构化预测任务（如少样本学习）中，笔直化仅出现在具有显式结构的阶段（如模板重复），其他阶段则消失。结果表明ICL并非单一过程，LLM会根据任务结构动态选择策略，仅部分策略导致表征笔直化。

AI 推荐理由

探讨上下文中的表征变化，间接关联记忆机制但非核心。

论文信息

作者 Eghbal A. Hosseini, Yuxuan Li, Yasaman Bahri, Declan Campbell, Andrew Kyle Lampinen

发布日期 2026-01-29

arXiv ID 2601.22364