音频理解 强化学习 工具使用 数据效率 技能学习
摘要

大型音频语言模型(LALMs)在音频理解和推理方面表现出色,但其在细粒度听觉感知任务中的表现仍不稳定。现有方法主要依赖大量数据训练以内化感知能力。本文提出AudioRouter,一种基于强化学习的框架,使LALMs能够通过学习何时以及如何使用外部音频工具来提升音频理解能力。该框架将工具使用建模为显式的决策问题,并在保持底层推理模型冻结的情况下优化轻量级路由策略。实验结果表明,AudioRouter在标准音频理解基准测试中取得了显著改进,且相比传统训练范式,其学习工具使用的训练数据需求减少了高达600倍。这些发现表明,学习有效的工具使用为LALMs内化感知能力提供了一种数据高效且可扩展的替代方案。

AI 推荐理由

论文核心围绕Agent使用外部音频工具的技能学习,通过强化学习优化工具使用策略。

论文信息
作者 Liyang Chen, Hongkai Chen, Yujun Cai, Sifan Li, Qingwen Ye et al.
发布日期 2026-02-11
arXiv ID 2602.10439
相关性评分 9/10 (高度相关)