摘要
在语言模型(LMs)中,当关于同一事件的不一致信息被编码到模型的参数化知识中时,会引发内部记忆知识冲突。以往工作主要通过微调或知识编辑等方法解决模型内部知识与外部资源之间的冲突,但对预训练阶段在模型内部表征中产生的冲突定位问题尚未探索。本文基于机制可解释性方法构建框架,识别预训练数据中的冲突知识在语言模型中的编码位置与方式。研究发现,模型特定内部组件负责编码预训练中的冲突知识,并展示了如何利用机制可解释性方法在推理阶段对冲突知识进行因果干预与控制。
AI 推荐理由
聚焦语言模型内部记忆中知识冲突的机制与定位,属核心记忆研究。
论文信息