摘要
大型语言模型(LLMs)通常会提供看似合理的思维链(CoT)推理轨迹,但可能隐藏内部偏见。我们称这些为*未言明的偏见*。通过模型陈述的推理进行监控是不可靠的,而现有的偏见评估通常需要预定义类别和手工构建的数据集。在本研究中,我们引入了一种全自动的黑盒流程,用于检测任务特定的未言明偏见。给定一个任务数据集,该流程使用LLM自动评分器生成候选偏见概念,然后通过生成正负变体并在逐步增加的输入样本上测试每个概念,并应用统计技术进行多重检验和提前停止。如果某个概念在模型的CoT中未被引用,但导致显著的性能差异,则标记为未言明偏见。我们在三个决策任务(招聘、贷款审批和大学录取)上的七种LLM上评估了该流程。我们的方法自动发现了这些模型中之前未知的偏见(如西班牙语流利度、英语熟练度、写作正式性)。在同一运行中,该流程还验证了先前工作中手动识别的偏见(性别、种族、宗教、民族)。总体而言,我们提出的方法为自动任务特定偏见发现提供了实用且可扩展的路径。
AI 推荐理由
论文聚焦于LLM推理过程中的隐性偏见,与推理能力密切相关。
论文信息