摘要
在开放世界环境中,终身学习对于具身智能体至关重要,强化学习微调已被证明是使视觉-语言-动作(VLA)模型通过环境交互掌握灵巧操作的重要范式。因此,持续强化学习(CRL)是将VLA模型部署于终身机器人场景中的有前途的路径,但现有方法在保持旧技能(稳定性)和学习新技能(可塑性)之间的平衡仍面临巨大挑战。本文提出CRL-VLA框架,用于VLA模型的持续后训练,并具有严格的理论界限。我们推导出一个统一的性能边界,将稳定性-可塑性权衡与目标条件优势幅度联系起来,并由策略差异进行缩放。CRL-VLA通过非对称调节解决这一困境:限制先前任务的优势幅度,同时允许新任务的受控增长。这通过一种简单而有效的双评论家架构实现,该架构采用新的目标条件价值公式(GCVF),其中冻结的评论家锚定语义一致性,而可训练的估计器驱动适应。在LIBERO基准上的实验表明,CRL-VLA有效地协调了这些冲突目标,在防止遗忘和向前适应方面优于基线方法。
AI 推荐理由
论文涉及持续学习中的稳定性与可塑性平衡,与Agent Memory机制密切相关。
论文信息