假设生成 实验验证 社会科学 贝叶斯优化 代理系统
摘要

数据驱动的社会科学研究本质上是缓慢的,依赖于观察、假设生成和实验验证的迭代循环。尽管近期的数据驱动方法有望加速这一过程,但它们在支持端到端科学发现方面仍存在不足。为弥补这一缺陷,我们引入了EXPERIGEN,一个基于贝叶斯优化启发的两阶段搜索代理框架,其中生成器提出候选假设,实验者对其进行实证评估。在多个领域中,EXPERIGEN一致发现了比先前方法多2-4倍的具有统计显著性的假设,且预测能力提高了7-17%。该框架自然扩展至复杂数据环境,包括多模态和关系型数据集。此外,假设必须新颖、实证基础扎实且可操作,以推动真正的科学进步。我们通过专家评审对机器生成的假设进行评估,收集高级教职员工的反馈。在审查的25个假设中,88%被评定为中度或高度新颖,70%被认为具有影响力并值得进一步研究,大多数表现出与研究生水平研究相当的严谨性。最后,我们进行了首个LLM生成假设的A/B测试,观察到具有统计显著性的结果(p < 1e-6)和344%的大效应量。

AI 推荐理由

论文聚焦于通过代理假设和实验加速社会科学研究,强调推理与假设生成能力,属于推理能力的核心研究。

论文信息
作者 Jishu Sen Gupta, Harini SI, Somesh Kumar Singh, Syed Mohamad Tawseeq, Yaman Kumar Singla et al.
发布日期 2026-02-08
arXiv ID 2602.07983
相关性评分 9/10 (高度相关)