摘要
大型语言模型(LLMs)越来越多地被部署为自主代理,用于多轮决策任务。然而,当前代理通常依赖固定的认知模式:非思考模型生成即时响应,而思考模型则统一进行深度推理。这种刚性结构对于需要逐步变化认知需求的长期任务效率低下。本文提出CogRouter框架,训练代理在每一步动态适应认知深度。基于ACT-R理论,设计了从本能反应到战略规划的四个层次认知级别。采用两阶段训练方法,包括认知感知监督微调(CoSFT)和认知感知策略优化(CoPO),通过置信度感知的优势重加权实现步骤级信用分配。关键见解是适当的认知深度应最大化行动结果的置信度。在ALFWorld和ScienceWorld上的实验表明,CogRouter在效率方面达到最先进的性能。使用Qwen2.5-7B时,其成功率达到82.3%,优于GPT-4o、OpenAI-o3和GRPO,同时使用的token数量减少了62%。
AI 推荐理由
论文聚焦于LLM代理在不同步骤中动态调整认知深度,直接涉及推理能力的提升与优化。
论文信息