摘要
在内生变量与结果之间存在混杂因素的情况下,工具变量(IVs)被用来隔离内生变量的因果效应。识别有效的工具变量需要跨学科知识、创造力和情境理解,这使得该任务非同寻常。本文探讨了大型语言模型(LLMs)是否能在此任务中提供帮助。我们采用两阶段评估框架:首先测试LLMs能否从文献中恢复已建立的工具变量,评估其复制标准推理的能力;其次评估LLMs能否识别并避免已被实证或理论否定的工具变量。基于这些结果,我们提出了IV Co-Scientist,一个用于针对特定处理-结果对提出、批评和优化工具变量的多智能体系统。我们还引入了一种统计检验方法,以在没有真实值的情况下进行一致性分析。实验结果表明,LLMs有潜力从大规模观测数据库中发现有效的工具变量。
AI 推荐理由
论文核心研究LLM在因果工具变量发现中的推理能力,涉及标准推理和批判性推理。
论文信息