摘要
基础模型依赖上下文学习进行个性化决策,但受限于上下文窗口大小,需借助如RAG等记忆压缩与检索系统。然而,现有系统常将记忆视为离线大容量存储,不适用于资源受限的在线具身智能体。本文提出MemCtrl,一种利用多模态大语言模型(MLLMs)在线剪枝记忆的新框架。该框架引入可训练的记忆头μ,作为门控机制,在探索过程中动态决定保留、更新或丢弃哪些观察或反思。实验通过离线专家和在线强化学习两种方式训练μ,在EmbodiedBench多个子集上显著提升任务完成能力,平均提升约16%,部分指令子集提升超20%。定性分析表明,μ增强的MLLM在处理长且复杂指令时表现更优。
AI 推荐理由
论文核心提出MemCtrl框架,直接研究Agent在线记忆控制机制。
论文信息