摘要
现实世界的数字环境高度多样且动态,这使得代理经常面临未见过的场景和分布变化,因此在特定环境中进行持续学习对计算机使用代理(CUAs)至关重要。然而,获取高质量且基于环境的代理数据而不依赖昂贵的人工标注是一个关键挑战。本文提出ACuRL框架,一种自主课程强化学习方法,能够在零人工数据的情况下使代理持续适应特定环境。代理首先探索目标环境以获取初始经验,随后通过课程任务生成器结合前一轮反馈合成新任务。为提供可靠的奖励信号,引入CUAJudge自动评估器,其与人类判断的一致性达到93%。实验表明,该方法有效实现了环境内和跨环境的持续学习,在不发生灾难性遗忘的情况下提升了4-22%的性能。进一步分析显示参数更新稀疏,有助于解释其有效性和鲁棒性。
AI 推荐理由
论文聚焦于Agent在动态环境中的持续学习与适应,属于自我进化的核心研究。
论文信息