智能体记忆 信息检索
摘要

本文提出DeepSearchQA,一个包含900个提示的基准测试,用于评估智能体在17个不同领域中执行复杂多步信息检索任务的能力。该基准聚焦于生成详尽答案列表所需的系统性搜索规划,明确考察三项关键但常被忽视的能力:跨异构来源的信息系统整合、去重与实体消歧以确保精确性,以及在开放搜索空间中对停止条件的推理能力。任务设计为因果链结构,要求智能体在长时程规划中保持上下文记忆。评估显示,当前先进智能体架构在召回率与精确率之间难以平衡,普遍存在过早终止或过度泛化等失败模式。

AI 推荐理由

强调长程上下文保留与信息整合,涉及记忆机制但非核心主题

论文信息
作者 Nikita Gupta, Riju Chatterjee, Lukas Haas, Connie Tao, Andrew Wang et al.
发布日期 2026-01-28
arXiv ID 2601.20975
相关性评分 7/10 (相关)