摘要
尽管大语言模型(LLM)的能力已显著提升,但其安全防护机制仍大多为无状态设计,将多轮对话视为一系列独立事件。这种缺乏时间感知能力的设计导致了“安全漏洞”,使得如Crescendo和ActorAttack等对抗性策略能够逐步跨越对话边界渗透恶意意图,从而绕过无状态过滤器。本文提出DeepContext,一种基于状态的监控框架,旨在映射用户意图的时间轨迹。DeepContext摒弃了孤立评估模型,采用循环神经网络(RNN)架构,输入经过微调的每轮对话嵌入序列,并通过传播隐藏状态来捕捉风险的累积过程。实验表明,DeepContext在多轮越狱检测任务中显著优于现有基线,达到0.84的F1分数,远超主流云服务商和开源模型。此外,DeepContext在T4 GPU上的推理开销低于20ms,适用于实时应用。这些结果表明,建模意图的时序演化是一种更有效且计算效率更高的方法,相较于部署大规模无状态模型。
AI 推荐理由
论文聚焦于通过状态感知机制检测多轮对话中的意图漂移,核心是利用RNN捕捉对话历史信息,属于记忆机制的研究范畴。
论文信息