安全对齐 推理模型 越狱防御 强化学习 推理修正
摘要

基于强化学习的后训练方法(如GRPO)可以提升多模态大规模推理模型(MLRMs)的推理能力,但近期研究表明这可能同时降低安全对齐性并增加越狱成功率。本文提出SafeThink,一种轻量级的推理时防御机制,将安全恢复视为满足条件的约束而非最大化目标。SafeThink通过安全奖励模型监控推理过程,并在安全阈值被违反时注入优化后的短纠正前缀(如“Wait, think safely”)。实验表明,在六个开源MLRMs和四个越狱基准测试中,SafeThink将攻击成功率降低了30-60%,同时保持了推理性能。关键发现是,安全恢复通常只需要干预前1-3步推理步骤即可实现。

AI 推荐理由

论文聚焦于推理模型的安全恢复,直接涉及推理过程中的安全约束与修正机制。

论文信息
作者 Soumya Suvra Ghosal, Souradip Chakraborty, Vaibhav Singh, Furong Huang, Dinesh Manocha et al.
发布日期 2026-02-11
arXiv ID 2602.11096
相关性评分 9/10 (高度相关)