DeepSearchQA：弥合深度研究智能体的全面性差距

摘要

本文提出DeepSearchQA，一个包含900个提示的基准测试，用于评估智能体在17个不同领域中执行复杂多步信息检索任务的能力。该基准聚焦于生成详尽答案列表所需的系统性搜索规划，明确考察三项关键但常被忽视的能力：跨异构来源的信息系统整合、去重与实体消歧以确保精确性，以及在开放搜索空间中对停止条件的推理能力。任务设计为因果链结构，要求智能体在长时程规划中保持上下文记忆。评估显示，当前先进智能体架构在召回率与精确率之间难以平衡，普遍存在过早终止或过度泛化等失败模式。

AI 推荐理由

强调长程上下文保留与信息整合，涉及记忆机制但非核心主题

论文信息

作者 Nikita Gupta, Riju Chatterjee, Lukas Haas, Connie Tao, Andrew Wang et al.

发布日期 2026-01-28

arXiv ID 2601.20975