AgriWorld：用于可验证农业推理的代码执行LLM代理世界工具协议框架

农业推理代码执行代理 LLM反思机制多模态数据分析

摘要

农业基础模型虽在预测和监测方面表现出色，但缺乏语言推理和交互能力，限制了其在实际农业工作流程中的应用。同时，大语言模型（LLMs）擅长文本理解和生成，却无法直接处理高维异构的农业数据集。为此，本文提出一个面向农业科学的智能体框架，提供Python执行环境AgriWorld，支持对田块的地理空间查询、遥感时间序列分析、作物生长模拟及任务特定预测器（如产量、胁迫和病害风险）。在此基础上设计了一个多轮LLM代理Agro-Reflective，通过编写代码、观察执行结果并进行反思的循环过程，逐步优化分析。此外，引入AgroBench基准测试集，涵盖多样化的农业问答任务，包括查找、预测、异常检测和反事实分析。实验表明，该方法优于纯文本和直接工具使用基线，验证了基于执行驱动的反思机制在农业推理中的有效性。

AI 推荐理由

论文聚焦于通过代码执行与反思循环实现农业领域的可靠推理，直接涉及LLM的推理能力提升。

论文信息

作者 Zhixing Zhang, Jesen Zhang, Hao Liu, Qinhan Lv, Jing Yang et al.

发布日期 2026-02-17

arXiv ID 2602.15325