chain-of-thought pathology detection LLM reasoning AI safety
摘要

思维链(Chain-of-Thought, CoT)推理是现代大语言模型(LLM)架构中的核心机制,也是AI安全的重要干预点。然而,CoT推理可能表现出一些称为‘病理’的失效模式,这些模式阻碍了其在监控中的实用性。先前的研究已识别出三种不同的病理:事后合理化(模型从预设答案反向生成看似合理的解释)、编码推理(中间步骤在表面上可解释的文本中隐藏信息)以及内化推理(模型在内部计算时用无意义的填充标记替代显式推理)。为了更好地理解和区分这些病理,本文提出了一组易于实现、计算成本低且任务无关的具体度量指标。为验证该方法,我们开发了一些专门训练以展示特定CoT病理的模型。本研究为评估CoT病理提供了实用工具包,并对训练过程中的监控具有直接意义。

AI 推荐理由

论文聚焦于LLM的推理能力中的Chain-of-Thought(CoT)机制,分析其病理现象并提出评估方法。

论文信息
作者 Manqing Liu, David Williams-King, Ida Caspary, Linh Le, Hannes Whittingham et al.
发布日期 2026-02-14
arXiv ID 2602.13904
相关性评分 10/10 (高度相关)