摘要
在复杂环境中高效导航需要智能体理解其世界的底层逻辑,但传统世界建模方法常面临样本效率低、透明度不足和可扩展性差的问题。本文提出一种框架,通过将连续模型学习与修复集成到智能体的决策循环中,利用元解释学习和谓词发明技术,发现语义上有意义且可复用的抽象概念,从而构建解耦的高质量概念层次结构。实验表明,该方法在具有复杂关系动态的领域中表现优异,样本效率远超基于PPO神经网络的基准方法。
AI 推荐理由
论文聚焦于因果模型的持续学习与推理,涉及符号逻辑和抽象概念构建,属于推理能力的核心研究。
论文信息