摘要
大型音频语言模型(LALMs)在音频理解和推理方面表现出色,但其在细粒度听觉感知任务中的表现仍不稳定。现有方法主要依赖大量数据训练以内化感知能力。本文提出AudioRouter,一种基于强化学习的框架,使LALMs能够通过学习何时以及如何使用外部音频工具来提升音频理解能力。该框架将工具使用建模为显式的决策问题,并在保持底层推理模型冻结的情况下优化轻量级路由策略。实验结果表明,AudioRouter在标准音频理解基准测试中取得了显著改进,且相比传统训练范式,其学习工具使用的训练数据需求减少了高达600倍。这些发现表明,学习有效的工具使用为LALMs内化感知能力提供了一种数据高效且可扩展的替代方案。
AI 推荐理由
论文核心围绕Agent使用外部音频工具的技能学习,通过强化学习优化工具使用策略。
论文信息