时间序列推理 强化学习 数据合成 LLM微调 CoT
摘要

时间序列是一种广泛存在于各类应用领域的数据类型,合理解决多样化的时间序列任务一直是长期目标。近年来,大型语言模型(LLMs)在强化学习(RL)推动下的推理能力取得进展,为需要长链推理(CoT)的任务提供了新机遇。然而,利用LLM进行时间序列推理仍处于初级阶段,受限于缺乏精心构建的时间序列CoT训练数据、数据调度效率低下以及缺乏专门针对此类数据的RL算法。本文提出VeriTime框架,通过数据合成、数据调度和RL训练来定制LLM以实现时间序列推理。首先,我们设计了一种数据合成流程,构建了一个带有可验证过程注释的时序-文本多模态数据集。其次,我们设计了一种数据调度机制,根据难度层次和任务分类安排训练样本。最后,我们开发了一种两阶段强化微调方法,利用可验证的过程级CoT数据,采用细粒度、多目标奖励机制。大量实验表明,VeriTime显著提升了LLM在多种时间序列推理任务中的表现。值得注意的是,它使3B、4B规模的紧凑模型能够达到或超越更大专有LLM的推理能力。

AI 推荐理由

论文核心聚焦于LLM的推理能力提升,特别是针对时间序列任务的推理过程优化。

论文信息
作者 Jiahui Zhou, Dan Li, Boxin Li, Xiao Zhang, Erli Meng et al.
发布日期 2026-02-08
arXiv ID 2602.07830
相关性评分 10/10 (高度相关)