信息检索 任务规划 基准测试 多步骤推理
摘要

随着大语言模型(LLMs)的发展,能够通过多轮网络交互自主收集信息的搜索代理得到了显著推进。尽管已有多种基准用于评估此类代理,但现有基准通常从答案反向构建查询,导致任务不自然且不符合实际需求。此外,这些基准往往仅关注定位特定信息或聚合多源信息,并依赖静态答案集,容易受到数据污染。为弥补这些不足,本文提出GISA,一个包含373个人工设计查询的通用信息检索助手基准,反映了真实的信息检索场景。GISA具有四种结构化答案格式(项目、集合、列表和表格),支持确定性评估。它在统一任务中结合了深度推理和广泛的信息聚合,并包含一个定期更新答案的实时子集以防止记忆依赖。值得注意的是,GISA为每个查询提供了完整的人类搜索轨迹,为过程级监督和模仿学习提供了黄金标准参考。实验表明,主流LLM和商业搜索引擎的表现仍存在较大提升空间。

AI 推荐理由

论文聚焦于信息检索代理的规划能力,强调复杂任务分解与多步骤信息整合。

论文信息
作者 Yutao Zhu, Xingshuo Zhang, Maosen Zhang, Jiajie Jin, Liancheng Zhang et al.
发布日期 2026-02-09
arXiv ID 2602.08543
相关性评分 8/10 (高度相关)