LLM推理 多工具集成 错误分类 加密货币分析 基准测试
摘要

现代分析师代理必须对包含大量检索文档、工具输出和时间敏感数据的复杂高token输入进行推理。尽管已有研究提出了工具调用基准并探讨了知识增强系统的事实性,但较少研究关注LLM在整合大量动态、结构化和非结构化多工具输出场景下的表现。本文以加密货币领域为高数据密度代表,引入CryptoAnalystBench基准,包含198个生产环境中的加密货币与DeFi查询,并构建了一个配备相关工具的代理框架,用于生成多个前沿LLM的响应。通过人类标注,开发了一种包含七类高级错误类型的分类体系,并改进了评估标准,以更准确捕捉这些错误。研究表明,即使在最先进的系统中,这些失败仍存在,并可能影响高风险决策。本文发布CryptoAnalystBench及相关评估流程、评分标准和错误分类体系,并提出缓解策略与开放挑战。

AI 推荐理由

论文聚焦于LLM在处理复杂、多工具输出时的推理失败模式,属于推理能力研究的核心内容。

论文信息
作者 Anushri Eswaran, Oleg Golev, Darshan Tank, Sidhant Rahi, Himanshu Tyagi
发布日期 2026-02-11
arXiv ID 2602.11304
相关性评分 9/10 (高度相关)