具身智能体 记忆机制 多模态学习 视觉推理 语义记忆
摘要

将多模态大语言模型(MLLM)部署为具身智能体的大脑仍面临挑战,特别是在长时序观察和有限上下文预算的情况下。现有基于记忆的方法通常依赖文本摘要,忽略了丰富的视觉和空间细节,在非平稳环境中表现脆弱。本文提出一种非参数化记忆框架,显式分离情景记忆和语义记忆,用于具身探索和问答任务。该方法首先通过语义相似性检索情景经验,并通过视觉推理验证,从而在无需严格几何对齐的情况下实现过去观察的鲁棒重用。同时,引入程序式规则提取机制,将经验转化为结构化的语义记忆,促进跨环境泛化。大量实验表明,该方法在具身问答和探索基准测试中达到最先进水平,在A-EQA数据集上LLM-Match提升7.3%,LLM MatchXSPL提升11.4%,在GOAT-Bench上成功率和SPL分别提升7.7%和6.8%。分析显示,情景记忆主要提升探索效率,而语义记忆增强了具身智能体的复杂推理能力。

AI 推荐理由

论文核心围绕记忆机制展开,提出非参数化记忆框架,分离情景记忆与语义记忆,显著提升探索与问答性能。

论文信息
作者 Ji Li, Jing Xia, Mingyi Li, Shiyan Hu
发布日期 2026-02-17
arXiv ID 2602.15513
相关性评分 10/10 (高度相关)