tool-use scientific reasoning agent benchmarking skill learning
摘要

科学推理本质上需要整合复杂的工具包以应对特定领域的知识。然而,当前基准测试大多忽视了代理在严格工作流中协调工具的能力。为弥补这一不足,我们引入了SciAgentGym,一个可扩展的交互环境,包含1,780个跨四个自然科学领域的特定工具,并配有强大的执行基础设施。此外,我们提出了SciAgentBench,一套分层评估套件,用于从基本操作到长期工作流的压力测试。我们的评估发现了一个关键瓶颈:最先进的模型在复杂科学工具使用上表现不佳。即使对于领先的GPT-5模型,随着交互时间延长,成功率也显著下降,主要原因是多步骤工作流执行失败。为此,我们提出SciForge,一种数据合成方法,将工具动作空间建模为依赖图以生成逻辑感知的训练轨迹。通过在这些轨迹上进行微调,我们的SciAgent-8B在性能上超越了显著更大的Qwen3-VL-235B-Instruct模型,并表现出科学工具使用能力的跨领域迁移潜力。这些结果突显了下一代自主科学代理的广阔前景。

AI 推荐理由

论文聚焦于LLM Agent在科学领域中多步骤工具使用能力的评估与提升,直接涉及技能学习中的工具调用与执行。

论文信息
作者 Yujiong Shen, Yajie Yang, Zhiheng Xi, Binze Hu, Huayu Sha et al.
发布日期 2026-02-13
arXiv ID 2602.12984
相关性评分 9/10 (高度相关)