元认知 知识对齐 LLM微调 内部记忆
摘要

元认知是智能的重要组成部分,尤其涉及对自身知识的意识。虽然人类依赖共享的内部记忆来回答问题并报告其知识状态,但这种依赖在大型语言模型(LLMs)中仍鲜有研究。本研究提出了一种框架,使用双提示方法测量元认知能力 $d_{ m{type2}}'$,随后引入用于元认知对齐的进化策略(ESMA),以将模型的内部知识与其显式行为绑定。ESMA在多种未训练设置中表现出强大的泛化能力,表明模型参考自身知识的能力有所增强。此外,参数分析表明这些改进源于一组关键的稀疏修改。

AI 推荐理由

论文探讨了LLM的元认知能力与知识状态,涉及模型内部知识与其行为的对齐,与Agent Memory相关。

论文信息
作者 Sangjun Park, Elliot Meyerson, Xin Qiu, Risto Miikkulainen
发布日期 2026-02-02
arXiv ID 2602.02605
相关性评分 7/10 (相关)