ProcMEM：通过非参数化PPO从经验中学习可复用的程序性记忆以用于大语言模型智能体

摘要

大语言模型驱动的智能体在序列决策任务中表现优异，但常依赖即时推理，在重复场景中反复重新推导解决方案，导致计算冗余与执行不稳定。为解决此问题，本文提出ProcMEM框架，使智能体能在无需参数更新的情况下，从交互经验中自主学习程序性记忆。通过构建技能马尔可夫决策过程（Skill-MDP），ProcMEM将被动的情节叙述转化为具备激活、执行与终止条件的可执行技能。为确保可靠复用且不降低能力，引入非参数化PPO方法，利用语义梯度生成高质量候选技能，并通过PPO门控机制进行鲁棒验证。结合基于评分的记忆维护策略，ProcMEM维持紧凑而高质量的程序性记忆库。实验表明，该方法在域内、跨任务及跨智能体场景下均实现高复用率、显著性能提升与极致记忆压缩。

AI 推荐理由

论文核心聚焦于LLM Agent的程序性记忆机制构建与复用。

论文信息

作者 Qirui Mi, Zhijian Ma, Mengyue Yang, Haoxuan Li, Yisen Wang et al.

发布日期 2026-02-02

arXiv ID 2602.01869