摘要
视觉-语言模型(VLMs)展现出卓越的通用能力,但在医学影像或几何问题解决等专业领域表现不足。监督微调(SFT)虽能提升目标领域的性能,但常导致灾难性遗忘,限制其泛化能力。持续预训练对扩展大语言模型(LLMs)的知识有效,但因计算成本高且开源模型缺乏预训练数据,难以应用于VLMs。因此需要高效的后训练适应方法。基于强化学习的方法如组相对策略优化(GRPO)在保留通用能力方面表现出潜力,但在初始缺乏领域知识时易出现优化崩溃。为此,本文提出强化课程预对齐(RCPA),一种新的后训练范式,引入课程感知的渐进调节机制。在早期阶段,RCPA通过部分输出约束安全地使模型接触新领域概念;随着模型对领域的熟悉度提高,训练逐渐过渡到完整的生成优化,以细化响应并使其符合领域特定偏好。这种分阶段适应方法在获取领域知识与保持通用多模态能力之间取得平衡。大量实验验证了RCPA在专业领域和通用基准上的有效性,为构建高性能、领域自适应的VLMs提供了实用路径。
AI 推荐理由
论文探讨了VLM在特定领域适应中的推理能力提升,涉及知识获取与保持的平衡。
论文信息