摘要
现代分析师代理必须对包含大量检索文档、工具输出和时间敏感数据的复杂高token输入进行推理。尽管已有研究提出了工具调用基准并探讨了知识增强系统的事实性,但较少研究关注LLM在整合大量动态、结构化和非结构化多工具输出场景下的表现。本文以加密货币领域为高数据密度代表,引入CryptoAnalystBench基准,包含198个生产环境中的加密货币与DeFi查询,并构建了一个配备相关工具的代理框架,用于生成多个前沿LLM的响应。通过人类标注,开发了一种包含七类高级错误类型的分类体系,并改进了评估标准,以更准确捕捉这些错误。研究表明,即使在最先进的系统中,这些失败仍存在,并可能影响高风险决策。本文发布CryptoAnalystBench及相关评估流程、评分标准和错误分类体系,并提出缓解策略与开放挑战。
AI 推荐理由
论文聚焦于LLM在处理复杂、多工具输出时的推理失败模式,属于推理能力研究的核心内容。
论文信息