摘要
大型语言模型(LLM)在因果推理中存在诸多失败案例,包括谄媚行为、层级崩溃和校准不当的拒绝,但目前缺乏系统性诊断基准。本文提出CausalT5K,一个包含超过5000个案例、覆盖10个领域的诊断基准,用于测试三个关键能力:检测层级崩溃、在对抗压力下抵抗谄媚偏差,以及生成明智的拒绝以明确信息缺失情况。该基准通过嵌入现实叙事中的因果陷阱,并将性能分解为效用(敏感度)和安全(特异性),揭示了传统准确率指标无法发现的失败模式。CausalT5K通过严谨的人机协作流程开发,结合40位领域专家、迭代交叉验证和基于规则、LLM和人工评分的综合验证,实现了Pearl的因果阶梯理论作为研究基础设施。初步实验表明,静态审计策略在四象限控制景观中普遍失效,证明了CausalT5K在推动可信推理系统发展中的价值。
AI 推荐理由
论文聚焦于因果推理中的失败模式及改进,直接涉及LLM的推理能力评估与提升。
论文信息