摘要
语言模型的表征常包含对应高层概念的线性方向。本文研究这些表征在(模拟)对话上下文中的动态演化,发现线性表征在对话过程中可能发生显著变化:例如,对话初期被表征为事实的信息,在结尾可能被表征为非事实,反之亦然。此类变化具有内容依赖性——与对话相关的信息表征易变,而通用信息通常保持稳定。该现象在不同模型家族和网络层中均稳健存在,且即使重放由其他模型生成的对话脚本也能复现。然而,在明确标记为科幻故事的上下文中,此类适应效应显著减弱。此外,沿表征方向进行干预在对话不同阶段效果差异显著。结果表明,模型可能根据对话所提示的角色动态调整其内部表征,这对静态解释方法和特征探针构成挑战,也为理解模型如何适应上下文提供了新方向。
AI 推荐理由
研究对话中表征动态变化,涉及记忆内容的上下文依赖性演化。
论文信息