程序性记忆 大语言模型智能体
摘要

大语言模型驱动的智能体在序列决策任务中表现优异,但常依赖即时推理,在重复场景中反复重新推导解决方案,导致计算冗余与执行不稳定。为解决此问题,本文提出ProcMEM框架,使智能体能在无需参数更新的情况下,从交互经验中自主学习程序性记忆。通过构建技能马尔可夫决策过程(Skill-MDP),ProcMEM将被动的情节叙述转化为具备激活、执行与终止条件的可执行技能。为确保可靠复用且不降低能力,引入非参数化PPO方法,利用语义梯度生成高质量候选技能,并通过PPO门控机制进行鲁棒验证。结合基于评分的记忆维护策略,ProcMEM维持紧凑而高质量的程序性记忆库。实验表明,该方法在域内、跨任务及跨智能体场景下均实现高复用率、显著性能提升与极致记忆压缩。

AI 推荐理由

论文核心聚焦于LLM Agent的程序性记忆机制构建与复用。

论文信息
作者 Qirui Mi, Zhijian Ma, Mengyue Yang, Haoxuan Li, Yisen Wang et al.
发布日期 2026-02-02
arXiv ID 2602.01869
相关性评分 10/10 (高度相关)