越狱检测 递归语言模型 安全防护 输入分析
摘要

越狱提示是对大型语言模型(LLMs)的实际且不断演变的威胁,尤其是在执行工具操作的代理系统中。许多攻击利用了长上下文隐藏、语义伪装和轻量级混淆技术来规避单次分类防护。本文提出RLM-JB,一个基于递归语言模型(RLMs)的端到端越狱检测框架,其中根模型协调一个有限分析程序,对输入进行转换,并在覆盖段落上查询工作模型,将证据聚合为可审计的决策。RLM-JB将检测视为一个过程而非一次性分类任务:它对可疑输入进行标准化和去混淆,分块文本以减少上下文稀释并确保覆盖率,执行并行分块筛查,并组合跨分块信号以恢复分割负载攻击。在AutoDAN风格的对抗性输入上,RLM-JB在三个LLM后端(ASR/Recall 92.5-98.0%)上实现了高检测效果,同时保持了非常高的精确度(98.99-100%)和低误报率(0.0-2.0%),突显了随着筛选后端变化而出现的实用敏感性-特异性权衡。

AI 推荐理由

论文涉及LLM的推理能力,通过递归语言模型进行越狱检测,强调对输入内容的分析与逻辑判断。

论文信息
作者 Doron Shavit
发布日期 2026-02-18
arXiv ID 2602.16520
相关性评分 7/10 (相关)