摘要
基于大语言模型(LLMs)的聊天机器人在金融领域,特别是在数字银行中被广泛应用,以处理客户关于存款、储蓄和贷款等产品的咨询。然而,这些模型在核心银行业务计算任务中仍表现出较低的准确性,例如总支付估算、不同利率产品的比较以及提前还款条件下的利息计算。此类任务需要多步骤的数值推理和对银行产品的上下文理解,但现有LLMs常出现系统性错误,如误解产品类型、错误应用条件或基本计算失误。为解决这一问题,本文提出了BankMathBench,一个反映真实银行业务任务的领域特定数据集。该数据集分为三个难度级别:基础、中级和高级,分别对应单一产品推理、多产品比较和多条件场景。实验表明,使用BankMathBench进行训练后,开源LLMs在公式生成和数值推理准确性方面均有显著提升,证明了该数据集在增强领域特定推理能力方面的有效性。
AI 推荐理由
论文聚焦于LLM在银行场景中的数值推理能力,提出专门的基准测试,属于推理能力的核心研究。
论文信息