摘要
随着大语言模型(LLMs)在长上下文处理和高级推理方面的能力不断增强,它们能够检索并合成分布在数万个token中的信息。本文假设更强的推理能力应能通过帮助模型识别隐含的有害意图来提升安全性。然而,在长上下文中隐含有害意图必须通过推理推断的情况下,我们发现这一假设并不成立。我们引入了一种新的威胁模型——组合推理攻击,其中有害查询被分解为分散在长上下文中的不完整片段。模型随后被一个中立的推理查询提示,诱导其检索和合成信息,从而在组合后才显现出有害意图。通过对14个前沿LLMs在长达64k token的上下文中进行评估,我们发现了三个主要结论:(1)具有更强一般推理能力的模型对组合推理攻击并不更鲁棒,常常能够组装出意图却未能拒绝;(2)随着上下文长度增加,安全性对齐持续下降;(3)推理时的计算量是关键缓解因素:在GPT-oss-120b模型上,增加推理时的计算量可使攻击成功率降低超过50个百分点。这些结果表明,安全性并不会自动随推理能力提升而扩展,特别是在长上下文推理条件下。
AI 推荐理由
论文核心研究LLM的推理能力与安全性的关系,提出并测试了组合推理攻击的新威胁模型。
论文信息