持续学习 参数高效微调 熵正则化 强化学习 灾难性遗忘
摘要

尽管大型预训练视觉模型在许多任务中表现出色,但在增量分类设置中仍容易出现灾难性遗忘。参数高效的微调(PEFT)通过限制可训练参数缓解了这一问题,但大多数方法仍依赖交叉熵(CE)损失来学习新数据。本文从强化学习的角度重新审视这一选择,并通过将分类建模为一步马尔可夫决策过程,推导出一种期望策略梯度(EPG)方法,直接最小化分类错误并具有低方差梯度估计。分析表明,CE可以被解释为带有额外样本加权机制的EPG:CE强调低置信度样本以鼓励探索,而EPG则优先处理高置信度样本。基于此,本文提出自适应熵退火(aEPG)训练策略,从探索性(类似CE)学习过渡到利用性(类似EPG)学习。实验表明,aEPG方法在多个基准测试和不同PEFT模块中均优于基于CE的方法。更广泛地,本文评估了多种熵正则化方法,并证明输出预测分布的较低熵值有助于提升预训练视觉模型的适应能力。

AI 推荐理由

论文聚焦于模型在持续微调中的自我适应与遗忘问题,提出改进方法以增强模型的持续学习能力,属于自我进化范畴。

论文信息
作者 Yaqian Zhang, Bernhard Pfahringer, Eibe Frank, Albert Bifet
发布日期 2026-02-15
arXiv ID 2602.14078
相关性评分 8/10 (高度相关)