推理模型的安全恢复只需几步引导即可实现

安全对齐推理模型越狱防御强化学习推理修正

摘要

基于强化学习的后训练方法（如GRPO）可以提升多模态大规模推理模型（MLRMs）的推理能力，但近期研究表明这可能同时降低安全对齐性并增加越狱成功率。本文提出SafeThink，一种轻量级的推理时防御机制，将安全恢复视为满足条件的约束而非最大化目标。SafeThink通过安全奖励模型监控推理过程，并在安全阈值被违反时注入优化后的短纠正前缀（如“Wait, think safely”）。实验表明，在六个开源MLRMs和四个越狱基准测试中，SafeThink将攻击成功率降低了30-60%，同时保持了推理性能。关键发现是，安全恢复通常只需要干预前1-3步推理步骤即可实现。

AI 推荐理由

论文聚焦于推理模型的安全恢复，直接涉及推理过程中的安全约束与修正机制。

论文信息

作者 Soumya Suvra Ghosal, Souradip Chakraborty, Vaibhav Singh, Furong Huang, Dinesh Manocha et al.

发布日期 2026-02-11

arXiv ID 2602.11096