AudioRouter：基于强化学习的双推理方法实现数据高效的音频理解

音频理解强化学习工具使用数据效率技能学习

摘要

大型音频语言模型（LALMs）在音频理解和推理方面表现出色，但其在细粒度听觉感知任务中的表现仍不稳定。现有方法主要依赖大量数据训练以内化感知能力。本文提出AudioRouter，一种基于强化学习的框架，使LALMs能够通过学习何时以及如何使用外部音频工具来提升音频理解能力。该框架将工具使用建模为显式的决策问题，并在保持底层推理模型冻结的情况下优化轻量级路由策略。实验结果表明，AudioRouter在标准音频理解基准测试中取得了显著改进，且相比传统训练范式，其学习工具使用的训练数据需求减少了高达600倍。这些发现表明，学习有效的工具使用为LALMs内化感知能力提供了一种数据高效且可扩展的替代方案。

AI 推荐理由

论文核心围绕Agent使用外部音频工具的技能学习，通过强化学习优化工具使用策略。

论文信息

作者 Liyang Chen, Hongkai Chen, Yujun Cai, Sifan Li, Qingwen Ye et al.

发布日期 2026-02-11

arXiv ID 2602.10439