摘要
语言推理模型(LRMs)通过扩展测试时计算量实现了强大的性能,但常因过度思考而产生冗长的推理轨迹,增加延迟和内存使用。现有LRMs通常采用统一长度惩罚来强制简洁性,这在序列层面过度压缩了关键的早期推理步骤,并在组层面无差别地惩罚所有查询。为解决这些问题,本文提出了一种名为PACE的双层级框架,在分层监督下实现前缀保护和难度感知压缩。在序列层面,前缀保护优化采用衰减混合展开策略,以保持有效的推理路径并促进简洁性;在组层面,难度感知惩罚根据查询复杂度动态调整长度约束,在保证对较难问题探索的同时减少简单问题的冗余。在DeepSeek-R1-Distill-Qwen(1.5B/7B)上的大量实验表明,PACE显著减少了token使用量(高达55.7%),同时在数学基准测试中提升了准确率(高达4.1%),并在代码、科学和通用领域表现出良好的泛化能力。
AI 推荐理由
论文聚焦于提升语言推理模型的推理效率与准确性,直接涉及推理能力优化机制。
论文信息