摘要
语言模型已成为量子计算教育和研究的实用工具,从总结技术论文到解释理论概念以及回答该领域最新进展的问题。尽管现有基准测试了量子代码生成和电路设计,但对量子计算概念的理解尚未系统评估。Quantum-Audit通过2700个问题填补了这一空白,涵盖核心量子计算主题。我们评估了来自领先机构的26个模型。该基准包含1000个专家编写的问题、1000个通过LLM从研究论文中提取并由专家验证的问题,以及额外的700个问题,包括350个开放式问题和350个包含错误前提的问题,以测试模型是否能纠正错误假设。人类参与者的得分在23%至86%之间,专家平均得分为74%。表现最佳的模型超过了专家平均水平,Claude Opus 4.5达到84%的准确率,但顶级模型在专家编写的问题上平均准确率下降了12个百分点。在高级主题上的表现进一步下降,在安全问题上降至73%。此外,模型经常接受并强化问题中嵌入的错误前提,而非识别它们,在这些关键推理任务中的准确率低于66%。
AI 推荐理由
论文重点评估了LLM在量子计算概念理解上的推理能力,涉及逻辑判断与错误前提识别。
论文信息