微调语言模型以了解其自身知识

元认知知识对齐 LLM微调内部记忆

摘要

元认知是智能的重要组成部分，尤其涉及对自身知识的意识。虽然人类依赖共享的内部记忆来回答问题并报告其知识状态，但这种依赖在大型语言模型（LLMs）中仍鲜有研究。本研究提出了一种框架，使用双提示方法测量元认知能力 $d_{ m{type2}}'$，随后引入用于元认知对齐的进化策略（ESMA），以将模型的内部知识与其显式行为绑定。ESMA在多种未训练设置中表现出强大的泛化能力，表明模型参考自身知识的能力有所增强。此外，参数分析表明这些改进源于一组关键的稀疏修改。

AI 推荐理由

论文探讨了LLM的元认知能力与知识状态，涉及模型内部知识与其行为的对齐，与Agent Memory相关。

论文信息

作者 Sangjun Park, Elliot Meyerson, Xin Qiu, Risto Miikkulainen

发布日期 2026-02-02

arXiv ID 2602.02605