摘要
人类的推理受到资源理性的塑造,即在约束条件下优化性能。最近,推理时扩展成为提升大语言模型(LLM)推理性能的一种强大范式,通过增加测试时计算量来实现。具体而言,指令微调(IT)模型在推理过程中显式生成长推理步骤,而大型推理模型(LRMs)则通过强化学习训练以发现最大化准确率的推理路径。然而,尚不清楚在没有与计算成本相关的显式奖励的情况下,资源理性是否能够从这种扩展中自然产生。本文引入了一个变量归因任务,要求模型根据候选变量、输入-输出试验和预定义逻辑函数推断哪些变量决定了结果。通过调整候选变量数量和试验数量,系统地操控任务复杂度。两种模型均表现出随着复杂度增加,从暴力搜索策略向分析策略的转变。IT模型在XOR和XNOR函数上表现下降,而LRMs保持稳健。这些发现表明,即使没有基于成本的显式奖励,模型也能根据任务复杂度调整推理行为,为资源理性是推理时扩展本身所固有的属性提供了有力证据。
AI 推荐理由
论文聚焦于语言模型的推理能力,探讨其在不同任务复杂度下的策略调整与资源理性。
论文信息