强化学习 多模型协作 结构化推理 专家系统 可验证奖励
摘要

近期在可验证奖励强化学习(RLVR)方面的进展表明,小型专用语言模型(SLMs)可以在不依赖大型统一LLM的情况下表现出结构化推理能力。本文提出了一种软隐藏状态协作机制,通过可训练的注意力接口将多个异构冻结SLM专家的内部表示进行整合。在Reasoning Gym和GSM8K上的实验表明,这种潜在集成方法与强大的单模型RLVR基线相当。进一步的消融实验揭示了专家利用的双重机制:在较简单的算术领域中,性能提升主要由静态专家偏好解释;而在更具挑战性的设置中,随着训练过程的推进,专家注意力逐渐集中并结构化,表明路由器在连接相关专家时出现了新兴的专业化现象。总体而言,隐藏状态协作提供了一种紧凑的机制来利用冻结专家,同时为观察专家使用模式及其在RLVR下的演变提供了窗口。

AI 推荐理由

论文聚焦于语言模型的结构化推理能力,通过强化学习实现专家协作提升推理表现。

论文信息
作者 Ryozo Masukawa, Sanggeon Yun, Hyunwoo Oh, SuhgHeon Jeong, Raheeb Hassa et al.
发布日期 2026-02-09
arXiv ID 2602.09173
相关性评分 9/10 (高度相关)