摘要
本文提出Nanbeige4.1-3B,一种仅使用30亿参数即可实现强大代理行为、代码生成和通用推理能力的统一通用语言模型。据我们所知,这是首个在单一模型中实现如此多功能性的开源小型语言模型(SLM)。为提升推理能力和偏好对齐,我们结合了点对点和成对奖励建模,确保高质量且符合人类偏好的响应。在代码生成方面,我们设计了复杂度感知奖励机制,在强化学习中优化正确性和效率。在深度搜索中,我们进行了复杂数据合成,并在训练过程中引入回合级监督。这使得Nanbeige4.1-3B能够稳定地进行长期工具交互,可靠地执行多达600次工具调用以解决复杂问题。大量实验结果表明,Nanbeige4.1-3B显著优于同类规模的先前模型,如Nanbeige4-3B-2511和Qwen3-4B,甚至在性能上超越了更大的模型,如Qwen3-30B-A3B。我们的结果表明,小型模型可以同时实现广泛的能力和强大的专业性,重新定义了30亿参数模型的潜力。
AI 推荐理由
论文重点研究模型的推理能力、偏好对齐及代码生成,强调推理与复杂问题解决。
论文信息