基于大语言模型的图信息引导动作生成实现具身任务规划

摘要

尽管大语言模型（LLMs）展现出强大的零样本推理能力，但其作为具身智能体在长视野任务规划中仍面临根本挑战。标准LLM规划器常因上下文窗口限制或生成违反环境约束的幻觉转移而难以维持策略一致性。本文提出GiG框架，采用“图中图”架构组织智能体记忆：利用图神经网络（GNN）将环境状态编码为嵌入，并在经验记忆库中构建动作连接的执行轨迹图；通过聚类这些图嵌入，实现结构感知的先验知识检索，使当前决策能锚定于相关历史结构模式。此外，引入新颖的有界前瞻模块，结合符号转移逻辑增强基于记忆的动作投射能力。在Robotouille同步/异步及ALFWorld三个基准上，该方法以相当或更低计算成本显著超越现有最优基线。

AI 推荐理由

提出基于图结构的经验记忆库，用于存储和检索执行轨迹，是规划中的关键记忆机制。

论文信息

作者 Xiang Li, Ning Yan, Masood Mortazavi

发布日期 2026-01-29

arXiv ID 2601.21841