摘要
大语言模型驱动的智能体在序列决策任务中表现优异,但常依赖即时推理,在重复场景中反复重新推导解决方案,导致计算冗余与执行不稳定。为解决此问题,本文提出ProcMEM框架,使智能体能在无需参数更新的情况下,从交互经验中自主学习程序性记忆。通过构建技能马尔可夫决策过程(Skill-MDP),ProcMEM将被动的情节叙述转化为具备激活、执行与终止条件的可执行技能。为确保可靠复用且不降低能力,引入非参数化PPO方法,利用语义梯度生成高质量候选技能,并通过PPO门控机制进行鲁棒验证。结合基于评分的记忆维护策略,ProcMEM维持紧凑而高质量的程序性记忆库。实验表明,该方法在域内、跨任务及跨智能体场景下均实现高复用率、显著性能提升与极致记忆压缩。
AI 推荐理由
论文核心聚焦于LLM Agent的程序性记忆机制构建与复用。
论文信息