摘要
随着工业和消费场景中长时音频数据的增多,如何高效地进行多小时录音的自然语言问答成为挑战。本文提出LongAudio-RAG(LA-RAG)框架,该框架通过检索时间戳标记的声学事件检测结果来增强大语言模型(LLM)的输出,而非直接使用原始音频。将多小时音频流转换为结构化的事件记录并存储于SQL数据库中,在推理阶段系统解析自然语言的时间参考、分类意图、检索相关事件,并基于这些约束证据生成答案。为了评估性能,作者构建了一个合成的长音频基准测试集,并展示了该方法在混合边缘-云环境中的实用性,其中音频定位模型在设备端运行,而LLM则部署在云端GPU服务器上。实验表明,基于事件的结构化检索显著提升了与传统RAG或文本到SQL方法相比的准确率。
AI 推荐理由
论文聚焦于LLM在长音频问答中的推理能力,通过事件检索提升准确性,属于推理能力的核心研究。
论文信息