belief representation representation geometry
摘要

大语言模型(LLMs)通过上下文构建对答案和主张的条件信念(即后验分布),但其在表征空间中如何编码、随新证据更新以及如何通过干预重塑这些信念尚缺乏机制性解释。本文在受控环境中研究Llama-3.2如何仅凭上下文中的样本隐式推断正态分布的参数(均值与标准差),并发现随着上下文学习的深入,参数的“信念流形”呈弯曲结构形成。当分布突变时,标准线性干预常使模型偏离流形,导致耦合且分布外的偏移;而基于几何与场感知的干预能更好保持目标信念族的结构。研究展示了线性场探测(LFP)作为一种简单方法,可对数据流形进行划分并实施尊重底层几何的干预,表明LLM中自然涌现出丰富结构,纯线性概念表征常不足以准确抽象。

AI 推荐理由

研究LLM信念表征的几何结构与更新机制,涉及记忆中信念状态的动态演化。

论文信息
作者 Raphaël Sarfati, Eric Bigelow, Daniel Wurgaft, Jack Merullo, Atticus Geiger et al.
发布日期 2026-02-02
arXiv ID 2602.02315
相关性评分 6/10 (相关)