摘要
本文提出DeepSearchQA,一个包含900个提示的基准测试,用于评估智能体在17个不同领域中执行复杂多步信息检索任务的能力。该基准聚焦于生成详尽答案列表所需的系统性搜索规划,明确考察三项关键但常被忽视的能力:跨异构来源的信息系统整合、去重与实体消歧以确保精确性,以及在开放搜索空间中对停止条件的推理能力。任务设计为因果链结构,要求智能体在长时程规划中保持上下文记忆。评估显示,当前先进智能体架构在召回率与精确率之间难以平衡,普遍存在过早终止或过度泛化等失败模式。
AI 推荐理由
强调长程上下文保留与信息整合,涉及记忆机制但非核心主题
论文信息