symbolic regression scientific reasoning physics-guided LLM equation discovery
摘要

通过符号化、可解释的公式解释观察到的现象是科学的基本目标。近年来,大语言模型(LLMs)因其广泛的领域知识和强大的推理能力,成为符号方程发现的有前途的工具。然而,大多数现有的基于LLM的系统试图直接从数据中猜测方程,而没有建模科学家通常遵循的多步骤推理过程:首先推断物理属性如对称性,然后利用这些属性作为先验条件来限制候选方程的空间。本文引入了KeplerAgent,一个遵循这一科学推理过程的代理框架。该代理协调基于物理的工具以提取中间结构,并利用这些结果配置符号回归引擎(如PySINDy和PySR),包括其函数库和结构约束。在一系列物理方程基准测试中,KeplerAgent在符号准确性方面显著优于LLM和传统基线方法,并且对噪声数据具有更高的鲁棒性。

AI 推荐理由

论文聚焦于LLM的科学推理过程,强调符号公式发现中的多步逻辑推理机制。

论文信息
作者 Jianke Yang, Ohm Venkatachalam, Mohammad Kianezhad, Sharvaree Vadgama, Rose Yu
发布日期 2026-02-12
arXiv ID 2602.12259
相关性评分 9/10 (高度相关)