摘要
尽管大语言模型在现有基准上表现优异,其能否对真正新颖的科学信息进行推理仍不明确。当前评估多针对端到端RAG流程,混淆了推理、检索及工具链选择,并受参数化记忆和网络内容波动干扰。本文提出DeR2——一个受控的深度研究沙盒,通过四个证据访问机制(仅指令、概念、相关文档、完整文档集)隔离基于文档的推理,同时保留深度搜索的核心挑战:多步综合、去噪与基于证据的结论生成。DeR2可量化检索损失与推理损失,并支持细粒度错误归因。为防止参数泄露,采用两阶段验证机制;为确保可复现性,每个实例提供冻结的2023–2025年理论论文库及专家标注的概念与推理依据。实验表明,前沿模型在该基准上表现差异显著,存在模式切换脆弱性或结构性概念误用等问题。
AI 推荐理由
聚焦检索与推理解耦,涉及记忆机制但非核心研究记忆架构。
论文信息