摘要
标准操作程序(SOPs)对企业运营至关重要,但现有语言模型在SOP理解和跨领域泛化方面存在困难。当前方法未能区分SOP所需的推理能力:术语精确性、顺序排序和约束推理。本文提出FM SO.P,通过两个创新点解决这些问题。首先,引入渐进任务混合,通过三个任务类型逐步构建能力:概念消歧以提高术语精确性、动作序列理解以确保流程正确性、以及场景感知图推理以处理条件逻辑。其次,提出一个自动多智能体评估系统,由三个智能体组成,能够自适应生成评分标准、分层测试集和评分规则,适用于不同领域(如DMV的时间约束、银行业的合规性)。在SOPBench上进行的七领域(银行、DMV、医疗、市场、大学、图书馆、酒店)评估表明,FM SO.P在32B模型上达到48.3%的通过率,在开源7B模型上达到34.3%,与Qwen-2.5-72B-Instruct基线(34.4%)相当,但参数量仅为后者1/10。
AI 推荐理由
论文聚焦于SOP理解中的推理能力,包括术语精确性、顺序逻辑和条件推理,属于推理能力的核心研究。
论文信息