摘要
如何训练智能体在长期不确定性环境中进行导航?本文提出了ΔBelief-RL方法,该方法利用语言模型自身的内在信念来奖励中间进展。通过使用智能体对目标解决方案概率变化来进行信用分配,ΔBelief-RL在合成交互数据上进行训练,教授信息检索能力,其表现优于纯粹基于结果的强化学习奖励机制,并且改进效果可推广到客户服务、个性化等分布外应用中。值得注意的是,随着测试时交互范围超出训练范围,性能持续提升,交互效率在Pass@k指标上也有所提高。总体而言,本研究引入了一种可扩展的训练策略,通过内在ΔBelief奖励实现对长期不确定性环境的导航。
AI 推荐理由
论文提出了一种基于内在信念的强化学习方法,用于长期任务中的信用分配和规划。
论文信息