摘要
尽管文本到SQL任务近期取得了显著进展,但在实际场景中仍难以有效应用。这一问题源于对单一静态工作流的依赖,严重限制了其在分布外和长尾场景中的扩展性。为解决此问题,本文提出SquRL,一种强化学习框架,旨在增强LLM在动态工作流构建中的推理能力。通过理论与实证分析,我们证明最优动态策略始终优于最佳静态工作流,性能提升主要由候选工作流间的异质性驱动。为此,我们设计了一种基于规则的奖励函数,并引入两种有效的训练机制:动态演员掩码以鼓励更广泛的探索,以及伪奖励以提高训练效率。实验表明,动态工作流构建方法在广泛使用的文本到SQL基准测试中表现优异,尤其在复杂和分布外查询上效果显著。
AI 推荐理由
论文聚焦于通过动态工作流提升LLM的推理能力,直接涉及推理机制的改进。
论文信息