in-context learning representational geometry
摘要

大型语言模型(LLMs)在深层网络中将输入序列的表征组织为更“笔直”的神经轨迹,这被认为有助于通过线性外推进行下一词预测。本文结合表征笔直化与上下文学习(ICL)研究,考察ICL过程中上下文内部是否发生表征笔直化。在Gemma 2模型上对多种ICL任务的分析揭示了两种模式:在连续预测任务(如自然语言、网格世界遍历)中,上下文长度增加会提升轨迹笔直度,并与预测性能正相关;而在结构化预测任务(如少样本学习)中,笔直化仅出现在具有显式结构的阶段(如模板重复),其他阶段则消失。结果表明ICL并非单一过程,LLM会根据任务结构动态选择策略,仅部分策略导致表征笔直化。

AI 推荐理由

探讨上下文中的表征变化,间接关联记忆机制但非核心。

论文信息
作者 Eghbal A. Hosseini, Yuxuan Li, Yasaman Bahri, Declan Campbell, Andrew Kyle Lampinen
发布日期 2026-01-29
arXiv ID 2601.22364
相关性评分 5/10 (一般相关)