LLM后门检测 模型记忆提取 AI安全
摘要

检测模型是否被投毒是AI安全领域的长期问题。在本研究中,我们提出了一种实用的扫描器,用于识别因果语言模型中的休眠代理式后门。我们的方法基于两个关键发现:首先,休眠代理倾向于记忆投毒数据,因此可以通过记忆提取技术泄露后门示例;其次,当输入中存在后门触发器时,中毒的LLM在输出分布和注意力头中表现出独特的模式。基于这些观察,我们开发了一种可扩展的后门扫描方法,该方法无需先验知识,仅需推理操作。我们的扫描器可以自然地整合到更广泛的防御策略中,且不会影响模型性能。我们展示了该方法在多种后门场景和广泛模型及微调方法中能够恢复有效的触发器。

AI 推荐理由

论文涉及模型记忆提取与后门触发器检测,与Agent Memory相关但非核心主题。

论文信息
作者 Blake Bullwinkel, Giorgio Severi, Keegan Hines, Amanda Minnich, Ram Shankar Siva Kumar et al.
发布日期 2026-02-03
arXiv ID 2602.03085
相关性评分 6/10 (相关)