摘要
大型语言模型(LLMs)在训练过程中已被证明能够获得序列级规划能力,但其在推理时表现出的规划行为往往短视且与其能力不一致。本文通过贝叶斯方法解释这一差距,认为规划行为受生成上下文的影响:由于自然语言与LLMs内部语言之间的细微差异,积累的自生成上下文会导致推理过程中的规划偏移,从而表现出规划能力下降的现象。通过两个受控实验验证该模型:一个随机生成任务展示了在人类提示下受限规划及随着自生成上下文积累规划强度增强的现象;另一个高斯采样任务则显示了在自生成序列条件下的初始偏差减少。这些发现为理解LLMs在推理过程中如何进行前瞻性规划提供了理论解释和实证依据。
AI 推荐理由
论文探讨了LLM在推理时的规划行为与训练时能力的差异,涉及生成上下文对规划的影响,与Agent Memory相关。
论文信息