摘要
近期的大规模音频语言模型(LALMs)在理解能力方面表现出色,但通常缺乏透明的推理过程。为解决这一“黑箱”问题,我们在Interspeech 2026上组织了音频推理挑战赛,这是首个专门用于评估音频领域Chain-of-Thought(CoT)质量的共享任务。挑战赛引入了MMAR-Rubrics,一种新颖的实例级协议,用于评估推理链的事实性和逻辑性。比赛设有单模型和Agent两个赛道,吸引了来自18个国家和地区的156支队伍参与。结果显示,当前Agent系统在推理质量方面处于领先地位,利用了迭代工具编排和跨模态分析。此外,单模型通过强化学习和复杂的数据管道也在迅速进步。本文详细介绍了挑战赛的设计、方法论,并对最先进的系统进行了全面分析,为可解释的音频智能提供了新的见解。
AI 推荐理由
论文聚焦于音频推理模型和Agent的推理过程质量评估,直接涉及推理能力的核心研究。
论文信息