摘要
尽管推理模型在复杂推理任务中取得了显著成功,但其不断增强的能力需要严格的安全措施。对于安全对齐,核心挑战在于安全与效用之间的固有权衡。然而,现有的对齐策略通常通过上下文蒸馏构建显式安全规则的CoT训练数据,这种方法无意中通过规则记忆与拒绝之间的刚性关联限制了推理能力。为缓解安全-效用权衡,我们提出了自适应安全上下文学习(ASCL)框架,以在适当上下文中提升推理能力。ASCL将安全对齐表述为多轮工具使用过程,使模型能够自主决定何时咨询安全规则以及如何生成持续推理。此外,为应对强化学习中对规则咨询的偏好,我们引入了逆频率策略优化(IFPO)以重新平衡优势估计。通过解耦规则检索和后续推理,我们的方法相比基线实现了更高的整体性能。
AI 推荐理由
论文聚焦于提升LLM的推理能力,同时解决安全与效用的权衡问题,属于推理能力的核心研究。
论文信息