摘要
在人类学习中,根据纠正性反馈调整思维过程是一项关键能力,尤其在协作环境中。然而,当前大语言模型的训练范式主要依赖于静态语料库建模,忽视了动态适应上下文所需的交互反馈机制。本文提出一种框架,将交互式上下文学习能力视为可训练的独立技能,而非涌现特性。通过构建信息不对称驱动的多轮教学互动,该方法显著提升了模型从语言反馈中学习的能力。实验表明,较小模型的多轮性能接近一个数量级更大的模型,并且在数学问题上的交互训练能够泛化到编程、谜题和迷宫导航等不同领域。定性分析表明,这种改进源于上下文可塑性的增强。最后,该方法为模型自我改进提供了一条统一路径。
AI 推荐理由
论文聚焦于模型通过自然语言反馈进行交互式上下文学习,显著提升推理能力,属于推理能力的核心研究。
论文信息