摘要
基于强化学习的后训练方法(如GRPO)可以提升多模态大规模推理模型(MLRMs)的推理能力,但近期研究表明这可能同时降低安全对齐性并增加越狱成功率。本文提出SafeThink,一种轻量级的推理时防御机制,将安全恢复视为满足条件的约束而非最大化目标。SafeThink通过安全奖励模型监控推理过程,并在安全阈值被违反时注入优化后的短纠正前缀(如“Wait, think safely”)。实验表明,在六个开源MLRMs和四个越狱基准测试中,SafeThink将攻击成功率降低了30-60%,同时保持了推理性能。关键发现是,安全恢复通常只需要干预前1-3步推理步骤即可实现。
AI 推荐理由
论文聚焦于推理模型的安全恢复,直接涉及推理过程中的安全约束与修正机制。
论文信息