上下文学习 误差动态 Transformer 记忆机制
摘要

在推理过程中,如示例、检索知识或交互历史等上下文信息可以显著提升大语言模型(LLMs)的性能,而无需参数更新。然而,其理论作用在除上下文学习(ICL)等特定场景外仍不明确。本文提出了一种统一的理论框架,用于分析基于Transformer的LLMs中任意上下文信息的影响。通过输出误差动态刻画上下文影响,在单层Transformer中证明了上下文条件下的误差向量可分解为基线误差向量和上下文校正向量。这给出了误差减少所需的几何条件:上下文校正必须与基线误差负方向对齐并满足范数约束。进一步表明,上下文校正的范数受上下文-查询相关性和互补性决定。这些结果扩展到多上下文和多层Transformer。实验覆盖了ICL、检索增强生成和记忆演化,验证了该理论,并提出了一种原理性的上下文选择策略,提升了性能0.6%。

AI 推荐理由

论文研究了上下文信息对LLM的影响,涉及记忆机制中的交互历史和知识检索。

论文信息
作者 Dingzirui Wang, Xuanliang Zhang, Keyan Xu, Qingfu Zhu, Wanxiang Che et al.
发布日期 2026-02-09
arXiv ID 2602.08294
相关性评分 8/10 (高度相关)