不确定性感知 推理优化 自修正机制 语言模型推理
摘要

现代大型语言模型(LLMs)通常在一次性、贪婪推理协议下进行评估和部署,尤其是在需要确定性行为的专业场景中。这种模式可能会系统性低估固定模型的真实能力:许多错误并非源于知识缺失,而是由于内部模糊性导致的过早决策。本文提出强化推理(Reinforcement Inference),一种基于熵的推理时控制策略,利用模型自身的不确定性选择性地调用第二次更谨慎的推理尝试,在无需重新训练的情况下实现更强的性能。在12,032个MMLU-Pro问题上,使用DeepSeek-v3.2模型在零样本设置下进行确定性解码,强化推理将准确率从60.72%提升至84.03%,仅增加61.06%的额外推理调用。实验表明,基于不确定性的选择能够捕捉大部分可实现的改进,并且与仅使用提示的方法相比效果显著。研究还提出了一个更广泛的熵感知范式,用于衡量和扩展模型能力,并指出当前解码器模型生成输出时,熵和置信度自然成为生成过程中的关键控制信号。

AI 推荐理由

论文聚焦于提升LLM的推理能力,通过引入不确定性感知的推理机制实现自我修正。

论文信息
作者 Xinhai Sun
发布日期 2026-02-09
arXiv ID 2602.08520
相关性评分 9/10 (高度相关)