摘要
NoSQL数据库因其灵活性和可扩展性被广泛应用于大数据分析、地理空间应用和医疗保健服务。然而,查询NoSQL数据库需要专业的技术知识,给用户带来了较高的使用门槛。尽管近期研究探索了文本到NoSQL的问题,但主要集中在单轮交互上,忽略了现实世界中查询的对话性质。为此,本文引入了对话式文本到NoSQL任务,该任务根据自然语言问题、NoSQL数据库及对话历史生成NoSQL查询。为解决此任务,我们提出了Stage-MCTS框架,通过将查询生成建模为搜索问题,赋予小语言模型(SLMs)特定于NoSQL的推理能力。该框架采用基于规则奖励引导的蒙特卡洛树搜索(MCTS)生成逐步推理数据,并结合渐进监督微调(SFT)和自训练策略。此外,我们构建了CoNoSQL数据集,包含超过2000个对话和150个数据库,以支持评估。实验表明,我们的方法优于最先进的大型推理模型,在执行值匹配(EVM)准确性方面提升了高达7.93%。
AI 推荐理由
论文核心围绕推理能力展开,提出基于MCTS的推理路径优化方法以提升SLM在对话式文本到NoSQL查询任务中的表现。
论文信息