tool use hallucination detection attention topology spectral analysis agent safety
摘要

在野外部署自主智能体需要可靠的防护机制以防止工具使用失败。本文提出了一种基于注意力拓扑频谱分析的训练无关防护方法,可作为监督方法的补充。在Llama 3.1 8B模型上,该方法在无需任何标注训练数据的情况下实现了97.7%的召回率(多特征检测)和86.1%的召回率与81.0%的精确率(平衡部署)。研究发现单层频谱特征可作为近乎完美的幻觉检测器,并揭示了幻觉不仅是错误的token,而是模型注意力状态的热力学变化。通过跨模型评估,发现了“喧闹的骗子”现象,表明Llama 3.1 8B的失败具有显著的频谱灾难性特征,而Mistral 7B表现出最佳的区分能力(AUC 0.900)。这些发现确立了频谱分析作为智能体安全的原理性、高效框架。

AI 推荐理由

论文聚焦于Agent工具使用中的幻觉检测,属于技能学习中的工具调用可靠性问题。

论文信息
作者 Valentin Noël
发布日期 2026-02-08
arXiv ID 2602.08082
相关性评分 8/10 (高度相关)