CryptoAnalystBench：多工具长文本LLM分析中的失败案例

LLM推理多工具集成错误分类加密货币分析基准测试

摘要

现代分析师代理必须对包含大量检索文档、工具输出和时间敏感数据的复杂高token输入进行推理。尽管已有研究提出了工具调用基准并探讨了知识增强系统的事实性，但较少研究关注LLM在整合大量动态、结构化和非结构化多工具输出场景下的表现。本文以加密货币领域为高数据密度代表，引入CryptoAnalystBench基准，包含198个生产环境中的加密货币与DeFi查询，并构建了一个配备相关工具的代理框架，用于生成多个前沿LLM的响应。通过人类标注，开发了一种包含七类高级错误类型的分类体系，并改进了评估标准，以更准确捕捉这些错误。研究表明，即使在最先进的系统中，这些失败仍存在，并可能影响高风险决策。本文发布CryptoAnalystBench及相关评估流程、评分标准和错误分类体系，并提出缓解策略与开放挑战。

AI 推荐理由

论文聚焦于LLM在处理复杂、多工具输出时的推理失败模式，属于推理能力研究的核心内容。

论文信息

作者 Anushri Eswaran, Oleg Golev, Darshan Tank, Sidhant Rahi, Himanshu Tyagi

发布日期 2026-02-11

arXiv ID 2602.11304