代码生成 强化学习 课程学习 推理能力 LLM微调
摘要

大型语言模型(LLMs)正在改变编程范式,但生成算法复杂且鲁棒的代码仍是一个关键挑战。激励LLMs的深度推理能力对于克服这一障碍至关重要。强化微调(RFT)已被视为解决此问题的一种有前途的策略。然而,现有方法大多忽视了测试用例中固有的异构难度和粒度,导致奖励信号分布不均,训练过程中梯度更新出现偏差。为此,我们提出了TAROT(Test-driven and Capability-adaptive Curriculum Reinforcement Fine-Tuning),为每个问题系统构建了一个四层测试套件(基础、中级、复杂、边界),提供一个受控的难度环境用于课程设计和评估。关键在于,TAROT将课程进展与原始奖励分数解耦,实现基于能力的评估,并从多个课程策略中进行原则性选择,而非偶然的测试用例难度组合。该设计促进了稳定的优化和更高效的技能获取。大量实验结果表明,RFT在代码生成中的最佳课程与模型的内在能力密切相关,能力较弱的模型通过由易到难的课程获得更大提升,而能力较强的模型则在先难后易的课程中表现更佳。TAROT提供了一种可复现的方法,根据模型的能力自适应地定制课程设计,从而持续提高生成代码的功能正确性和鲁棒性。

AI 推荐理由

论文聚焦于通过强化学习提升LLM的代码生成能力,强调推理能力的激励与优化。

论文信息
作者 Chansung Park, Juyong Jiang, Fan Wang, Sayak Paul, Jiasi Shen et al.
发布日期 2026-02-17
arXiv ID 2602.15449
相关性评分 9/10 (高度相关)