RAG 知识图谱 多跳推理 材料科学 文献分析
摘要

聚合物文献中包含大量实验知识,但这些知识通常以非结构化文本和不一致术语的形式存在,使得系统性检索和推理变得困难。现有工具通常仅能提取孤立的、研究特定的事实,无法保留回答更广泛科学问题所需的跨研究上下文。检索增强生成(RAG)通过结合大语言模型(LLMs)与外部检索提供了一种有前景的解决方案,但其效果高度依赖领域知识的表示方式。本文开发了两种检索流程:一种是基于密集语义向量的方法(VectorRAG),另一种是基于图的方法(GraphRAG)。利用超过1000篇聚羟基烷酸酯(PHA)论文,我们构建了保留上下文的段落嵌入和一个支持实体消歧和多跳推理的规范化结构化知识图谱。通过标准检索指标、与通用最先进系统如GPT和Gemini的比较以及领域化学家的定性验证,评估了这些流程。结果表明,GraphRAG在精度和可解释性方面表现更好,而VectorRAG提供了更广泛的召回率,突显了互补性的权衡。专家验证进一步确认,定制化的流程,尤其是GraphRAG,能够生成具有坚实依据、引用可靠的响应,并具有较强的领域相关性。通过将每一条陈述都基于证据,这些系统使研究人员能够浏览文献、比较不同研究的结果并发现难以手动提取的模式。更广泛地说,这项工作建立了一个实用框架,用于使用精选语料库和检索设计构建材料科学助手,减少对专有模型的依赖,同时实现大规模可信的文献分析。

AI 推荐理由

论文聚焦于通过RAG增强LLM的推理能力,特别是针对材料科学领域的知识提取与多跳推理。

论文信息
作者 Sonakshi Gupta, Akhlak Mahmood, Wei Xiong, Rampi Ramprasad
发布日期 2026-02-18
arXiv ID 2602.16650
相关性评分 9/10 (高度相关)