基于自我怀疑与恢复的元认知强化学习

摘要

现有鲁棒强化学习方法通常聚焦于抑制不可靠经验或被污染的奖励，却缺乏对自身学习过程可靠性的推理能力，易因噪声过度保守或在不确定性累积时发生灾难性失败。本文提出一种元认知强化学习框架，使智能体能基于内部估计的可靠性信号评估、调节并恢复其学习行为。该方法引入由价值预测误差稳定性（VPES）驱动的元信任变量，通过故障安全调控与渐进式信任恢复机制调制学习动态。在存在奖励污染的连续控制基准实验中，该方法相比强鲁棒性基线取得了更高的平均回报，并显著减少了训练后期的失败率。

AI 推荐理由

涉及内部可靠性信号与学习行为调节，隐含记忆机制但未显式研究记忆。

论文信息

作者 Zhipeng Zhang, Wenting Ma, Kai Li, Meng Guo, Lei Yang et al.

发布日期 2026-01-28

arXiv ID 2601.20193