摘要
近年来基础模型的进步使得推理系统能够在国际数学奥林匹克竞赛中达到金牌水平。然而,从竞赛级问题解决转向专业研究需要处理大量文献并构建长期证明。本文介绍了Aletheia,一个能够端到端生成、验证和修订解决方案的数学研究代理。Aletheia基于改进版Gemini Deep Think模型,采用新的推理时间扩展定律,并通过工具使用应对数学研究的复杂性。我们展示了Aletheia从奥数问题到博士级别的练习能力,并实现了多个AI辅助数学研究的重要里程碑,包括完全由AI生成的研究论文、人机协作证明粒子系统边界以及对700个开放问题的半自主评估。为帮助公众理解AI与数学的发展,我们建议量化AI辅助成果的自主性和新颖性,并提出人机交互卡片的概念以提高透明度。
AI 推荐理由
论文核心聚焦于LLM在数学推理与研究中的应用,涉及复杂推理、证明生成及自主研究能力。
论文信息