社会偏见 RAG系统 Chain-of-Thought 公平性 推理框架
摘要

大型语言模型(LLMs)中存在的社会偏见引发了重大的公平性问题。检索增强生成(RAG)架构通过引入外部知识源来增强LLM的生成能力,但仍面临相同的偏见挑战。本文旨在评估和理解RAG系统中的社会偏见影响。通过在多个检索语料库、LLM和偏见评估数据集上进行广泛实验,涵盖了13种不同的偏见类型,我们意外地观察到RAG系统的偏见有所减少。这表明引入外部上下文有助于抵消刻板印象驱动的预测,可能通过多样化模型输出的上下文基础来提高公平性。为了更好地理解这一现象,我们通过将思维链(CoT)提示整合到RAG中,并评估模型的CoT可信度,进一步探索了模型的推理过程。实验结果表明,随着从检索文档中引入更多上下文信息,模型的偏见倾向会在刻板印象和反刻板印象响应之间变化。有趣的是,尽管CoT提高了准确性,但与RAG的偏见减少趋势相反,它反而增加了整体偏见,凸显了需要开发能够缓解这种权衡的偏见感知推理框架。

AI 推荐理由

论文重点研究了RAG系统中的推理过程及其对社会偏见的影响,涉及Chain-of-Thought(CoT)提示和模型推理机制。

论文信息
作者 Shweta Parihar, Lu Cheng
发布日期 2026-02-10
arXiv ID 2602.09442
相关性评分 8/10 (高度相关)