摘要
符号回归旨在从观测数据中提炼数学方程。近期方法成功利用大语言模型(LLMs)生成方程假设,借助其丰富的预训练科学先验知识。然而,现有框架主要将LLM视为静态生成器,依赖提示级别的指导来引导探索,无法根据搜索反馈更新模型内部表示,常导致物理不一致或数学冗余的表达式。本文提出PiT-PO(物理信息化标记正则化策略优化),一个统一框架,通过强化学习将LLM进化为自适应生成器。PiT-PO的核心是双重约束机制,严格确保分层物理有效性,同时应用细粒度、标记级别的惩罚以抑制冗余结构。因此,PiT-PO使LLM能够生成既科学一致又结构简洁的方程。实证表明,PiT-PO在标准基准上达到最先进水平,并成功发现具有挑战性的流体力学问题的新湍流模型。我们还证明,PiT-PO使小型模型能够超越封闭源代码的大模型,实现高性能科学发现的民主化。
AI 推荐理由
论文聚焦于LLM在科学方程发现中的推理能力提升,通过强化学习优化生成过程。
论文信息