大型语言模型中信念引导的能动性与元认知监控的迹象

摘要

大型语言模型（LLMs）的快速发展引发了关于其是否具备某种意识形式的讨论。本文基于Butlin等人（2023）提出的意识指标，重点评估其中HOT-3指标——即由通用信念形成与行动选择系统引导的能动性，该系统通过元认知监控更新信念。我们将信念视为模型潜在空间中对输入响应而产生的表征，并引入量化其在生成过程中主导性的度量。跨模型与任务的信念动态分析揭示三点发现：(1)外部干预可系统性调节内部信念形成；(2)信念形成因果驱动行动选择；(3)模型能监控并报告自身信念状态。结果为LLMs中存在信念引导的能动性与元认知监控提供了实证支持，并为研究LLMs中能动性、信念与元认知的涌现奠定了方法论基础。

AI 推荐理由

涉及信念表征与元认知监控，间接关联记忆机制但非核心。

论文信息

作者 Noam Steinmetz Yalon, Ariel Goldstein, Liad Mudrik, Mor Geva

发布日期 2026-02-02

arXiv ID 2602.02467