A³-Bench：通过锚点与吸引子激活对记忆驱动的科学推理进行基准测试

摘要

科学推理不仅依赖逻辑推断，还需激活先验知识与经验结构。记忆可高效复用知识，提升推理的一致性与稳定性。然而，现有基准主要评估最终答案或逐步连贯性，忽视了人类推理中基于锚点（anchor）与吸引子（attractor）激活并整合至多步推理的记忆驱动机制。为此，本文提出A³-Bench基准，通过双尺度记忆驱动激活评估科学推理能力。首先，采用SAPM流程（主题、锚点与吸引子、问题、记忆发展）标注2,198个跨领域科学推理问题；其次，构建基于锚点与吸引子的双尺度记忆评估框架，并引入AAUI（锚点-吸引子利用率指数）度量记忆激活率；最后，通过多种基础模型与范式的实验验证该基准，并分析记忆激活对推理性能的影响，为记忆驱动的科学推理提供新见解。

AI 推荐理由

论文聚焦记忆驱动的科学推理机制，明确构建基于锚点与吸引子的记忆激活评估框架。

论文信息

作者 Jian Zhang, Yu He, Zhiyuan Wang, Zhangqi Wang, Kai He et al.

发布日期 2026-01-14

arXiv ID 2601.09274