Free(): 在仅使用Malloc的推理模型中学习遗忘

推理优化自我遗忘 LoRA 冗余信息处理模型压缩

摘要

推理模型通过扩展测试时计算能力来增强问题解决能力，但面临一个关键悖论：过多的思考标记往往会降低而非提高性能。我们将其归因于一种基本的架构缺陷：标准LLM作为“仅malloc”的引擎，持续积累有效和冗余的步骤，而没有机制来修剪过时信息。为打破这一循环，我们提出了Free()LM，该模型通过可插拔的LoRA适配器引入内在的自我遗忘能力。通过在推理和清理模式之间迭代切换，Free()LM动态识别并修剪无用的上下文块，从而保持紧凑且无噪声的状态。大量实验表明，Free()LM在所有模型规模（8B到685B）上均取得一致改进，甚至在IMOanswerBench上使用DeepSeek V3.2-Speciale实现了新的SOTA。特别是在长周期任务中，当标准Qwen3-235B-A22B模型完全崩溃（0%准确率）时，Free()LM将性能恢复至50%。我们的发现表明，可持续智能需要与思考能力同样重要的遗忘自由。

AI 推荐理由

论文聚焦于推理模型中的信息冗余问题，提出遗忘机制以提升推理性能，属于推理能力的核心研究。

论文信息

作者 Yilun Zheng, Dongyang Ma, Tian Liang, Jiahao Xu, Xinting Huang et al.

发布日期 2026-02-08

arXiv ID 2602.08030