摘要
近期大语言模型(LLMs)与视觉语言模型(VLMs)的发展为强化学习(RL)带来了强大的语义与多模态推理能力,有助于提升样本效率、高层规划与可解释性。尽管已有研究将LLMs和VLMs集成到RL的多个组件中,但作为存储与重用经验的核心组件——经验回放缓冲区仍未被充分探索。本文提出利用VLM指导回放缓冲区中经验的优先级排序,核心思想是使用一个冻结的预训练VLM(无需微调)作为自动评估器,识别并优先选择智能体经验中的高潜力子轨迹。在涵盖游戏与机器人、离散与连续动作空间的多种场景中,采用该方法的智能体相比现有方法平均成功率提升11–52%,样本效率提高19–45%。
AI 推荐理由
聚焦经验回放缓冲区的优先级机制,属记忆管理关键环节。
论文信息