对抗攻击 推理鲁棒性 失败模式分析 置信度处理
摘要

具有推理能力的大型语言模型在复杂任务中表现出色,但其在多轮对抗压力下的鲁棒性仍鲜有研究。本文评估了九种前沿推理模型在对抗攻击下的表现。研究发现,推理能力提供了有意义但不完全的鲁棒性:大多数推理模型显著优于指令调优的基础模型,但都表现出不同的脆弱性特征,误导性建议普遍有效,而社会压力的效果因模型而异。通过轨迹分析,我们识别出五种失败模式(自我怀疑、社会顺从、建议劫持、情感易感性和推理疲劳),其中前两种占失败案例的50%。进一步研究表明,适用于标准LLM的置信度感知响应生成(CARG)方法对推理模型无效,因为扩展的推理过程导致过度自信;反直觉的是,随机置信度嵌入优于目标提取。结果表明,推理能力并不自动带来对抗鲁棒性,基于置信度的防御机制需要为推理模型进行根本性重新设计。

AI 推荐理由

论文聚焦于大型推理模型在多轮对抗下的表现,直接探讨其推理能力与鲁棒性问题。

论文信息
作者 Yubo Li, Ramayya Krishnan, Rema Padman
发布日期 2026-02-13
arXiv ID 2602.13093
相关性评分 9/10 (高度相关)