摘要
大型语言模型(LLMs)在对话环境中往往难以从纠正性反馈中学习。它们很少主动寻求此类反馈,即使在存在歧义的情况下,这使得对话显得静态、单向且缺乏人类对话的适应性。为了解决这些限制,本文借鉴了人类社会元学习(SML)的概念——即学习如何从他人那里学习的过程。我们将SML形式化为一种微调方法,训练LLMs在模拟教学对话中主动寻求并学习语言反馈,将静态任务转化为互动式社会学习问题。SML有效地教会模型利用对话来解决单次交互无法解决的问题。这种能力具有跨领域泛化性;在数学问题上训练的SML模型能够更好地利用反馈解决编码问题,反之亦然。此外,尽管仅在完全指定的问题上进行训练,这些模型在信息不完整、关键信息分多轮揭示的任务中表现更佳。当面对这种模糊性时,经过SML训练的模型较少尝试过早回答,并更倾向于请求所需的信息。这项工作提出了一种可扩展的方法,用于开发能够有效从语言反馈中学习的人工智能系统。
AI 推荐理由
论文聚焦于LLM如何通过语言反馈进行学习,强调推理与问题解决能力的提升。
论文信息