摘要
本文研究基于大语言模型(LLM)的智能体如何通过将情景记忆与强化学习相结合实现持续学习。聚焦于“反思”能力——即智能体重访过往经验并调整未来行动选择——作为无需微调模型权重即可持续适应的核心机制。为此,作者提出状态化反思决策过程(SRDP),其中智能体维护并更新情景记忆,并在写入新经验与读取相关案例以指导决策之间交替。该框架将反思记忆动态纳入决策过程本身,使其可被控制与分析。基于此,作者开发了读写反思学习算法,将其记忆检索机制融入软策略迭代过程,并证明其收敛性;同时表明随着记忆增长并更密集覆盖任务环境,所得策略趋近最优。该工作统一了基于记忆的推理与强化学习,为具备持续、经验驱动学习能力的LLM智能体提供了形式化基础。
AI 推荐理由
论文核心研究反思性记忆机制及其在LLM智能体中的形式化与学习算法。
论文信息