摘要
大型音频语言模型(LALMs)在感知任务上表现出色,但在需要精确声学测量的复杂推理任务中表现不足。尽管外部工具可以提取如精确节拍或音高的细粒度特征,但有效整合这些工具仍具挑战性:盲目使用所有工具会导致信息过载,而基于提示的工具选择方法无法评估其上下文相关效用。为此,本文提出AuTAgent(音频工具代理),一种通过强化学习框架学习何时以及调用哪些工具的方法。该框架采用稀疏反馈训练策略和新颖的差分奖励机制,使代理能够过滤无关工具,并仅在能带来性能提升时调用外部工具。实验结果表明,AuTAgent通过提供可验证的声学证据,弥补了LALMs的表示瓶颈,在MMAU Test-mini和MMAR基准测试中分别提升了4.20%/6.20%和9.80%/8.00%的准确率。此外,进一步实验还展示了其出色的迁移能力。本文突出了外部工具在增强音频模型推理能力中的补充作用。
AI 推荐理由
论文核心研究Agent如何选择和调用外部工具进行音频推理,属于技能学习中的工具使用与选择。
论文信息