摘要
现有鲁棒强化学习方法通常聚焦于抑制不可靠经验或被污染的奖励,却缺乏对自身学习过程可靠性的推理能力,易因噪声过度保守或在不确定性累积时发生灾难性失败。本文提出一种元认知强化学习框架,使智能体能基于内部估计的可靠性信号评估、调节并恢复其学习行为。该方法引入由价值预测误差稳定性(VPES)驱动的元信任变量,通过故障安全调控与渐进式信任恢复机制调制学习动态。在存在奖励污染的连续控制基准实验中,该方法相比强鲁棒性基线取得了更高的平均回报,并显著减少了训练后期的失败率。
AI 推荐理由
涉及内部可靠性信号与学习行为调节,隐含记忆机制但未显式研究记忆。
论文信息