摘要
大型语言模型(LLMs)可以将自然语言转化为优化代码,但静默故障带来了严重风险:执行并返回求解器可行解的代码可能包含语义错误,导致组合问题中可行性与正确性之间的差距高达90个百分点。本文提出ReLoop,从两个互补方向解决静默故障。结构化生成将代码生成分解为四阶段推理链(理解、形式化、合成、验证),模仿专家建模实践,并通过显式变量类型推理和自验证防止公式错误。行为验证通过测试公式是否对基于求解器的参数扰动做出正确响应来检测生成过程中未被发现的错误,无需依赖外部语义信号。两种机制相辅相成:结构化生成在复杂组合问题上表现优异,而行为验证在局部公式缺陷问题上贡献最大。结合IIS增强诊断的执行恢复,ReLoop在最强模型上将正确性从22.6%提升至31.1%,执行率从72.1%提升至100.0%,并在五种涵盖三种范式(基础模型、SFT、RL)和三个基准的模型中均取得一致提升。此外,还发布了RetailOpt-190,包含190个针对多约束交互场景的零售优化案例,这些是LLMs最常失败的领域。
AI 推荐理由
论文聚焦于LLM在优化问题中的推理过程,提出结构化生成与行为验证机制以提升推理正确性。
论文信息