摘要
随着先进推理能力在语音对话模型中的快速集成,领域迫切需要超越简单交互、应对现实复杂性的基准。然而,当前评估主要遵循文本生成标准,忽视了副语言和口语化表达的独特音频特性以及现代智能体所需的认知深度。为此,我们引入了WavBench,一个全面的基准,用于评估现有研究未能覆盖的真实对话能力。WavBench构建了一个三部分框架:1)Pro子集,通过显著增加难度来严格挑战增强推理能力的模型;2)Basic子集,定义了一种新的口语化表达标准,优先考虑自然词汇、语言流畅性和互动亲和力,而非严格的书面准确性;3)Acoustic子集,涵盖显式理解、生成和隐式对话,以严格评估真实场景下的综合副语言能力。通过对五种最先进模型的评估,WavBench为复杂问题解决、口语化表达和副语言保真度的交叉点提供了关键见解,指导稳健语音对话模型的发展。
AI 推荐理由
论文聚焦于对话模型的推理能力,设计了专门评估复杂推理、口语表达和副语言理解的基准。
论文信息