元认知 强化学习
摘要

现有鲁棒强化学习方法通常聚焦于抑制不可靠经验或被污染的奖励,却缺乏对自身学习过程可靠性的推理能力,易因噪声过度保守或在不确定性累积时发生灾难性失败。本文提出一种元认知强化学习框架,使智能体能基于内部估计的可靠性信号评估、调节并恢复其学习行为。该方法引入由价值预测误差稳定性(VPES)驱动的元信任变量,通过故障安全调控与渐进式信任恢复机制调制学习动态。在存在奖励污染的连续控制基准实验中,该方法相比强鲁棒性基线取得了更高的平均回报,并显著减少了训练后期的失败率。

AI 推荐理由

涉及内部可靠性信号与学习行为调节,隐含记忆机制但未显式研究记忆。

论文信息
作者 Zhipeng Zhang, Wenting Ma, Kai Li, Meng Guo, Lei Yang et al.
发布日期 2026-01-28
arXiv ID 2601.20193
相关性评分 6/10 (相关)