摘要
检索增强生成(RAG)通过引入外部知识有效缓解了大语言模型(LLM)中的幻觉问题。然而,现有框架中文本的离散表示常导致语义完整性丢失,从而引发检索偏差。受人类情景记忆机制启发,本文提出CogitoRAG框架,模拟人类认知记忆过程。该框架的核心在于语义主旨的提取与演化。在离线索引阶段,CogitoRAG首先将非结构化语料库转化为主旨记忆语料库,并将其转换为融合实体、关系事实和记忆节点的多维知识图谱。在线检索阶段,框架通过查询分解模块将复杂查询拆解为多个子查询,模仿人类对复杂信息的认知分解过程。随后,实体扩散模块通过结构相关性和实体频率奖励机制进行关联检索。此外,本文提出CogniRank算法,通过融合扩散得分与语义相似度对候选段落进行精确重排序。最终证据以段落-记忆配对形式传递给生成器,提供高密度的信息支持。实验结果表明,CogitoRAG在五个主流问答基准测试和GraphBench的多任务生成任务中显著优于最先进的RAG方法,展示了其在复杂知识整合和推理方面的卓越能力。
AI 推荐理由
论文核心围绕记忆机制,提出模拟人类认知记忆过程的RAG框架,强调语义主旨提取与演化。
论文信息