LongAudio-RAG：基于事件的多小时长音频问答

audio question answering event retrieval LLM RAG edge-cloud architecture

摘要

随着工业和消费场景中长时音频数据的增多，如何高效地进行多小时录音的自然语言问答成为挑战。本文提出LongAudio-RAG（LA-RAG）框架，该框架通过检索时间戳标记的声学事件检测结果来增强大语言模型（LLM）的输出，而非直接使用原始音频。将多小时音频流转换为结构化的事件记录并存储于SQL数据库中，在推理阶段系统解析自然语言的时间参考、分类意图、检索相关事件，并基于这些约束证据生成答案。为了评估性能，作者构建了一个合成的长音频基准测试集，并展示了该方法在混合边缘-云环境中的实用性，其中音频定位模型在设备端运行，而LLM则部署在云端GPU服务器上。实验表明，基于事件的结构化检索显著提升了与传统RAG或文本到SQL方法相比的准确率。

AI 推荐理由

论文聚焦于LLM在长音频问答中的推理能力，通过事件检索提升准确性，属于推理能力的核心研究。

论文信息

作者 Naveen Vakada, Kartik Hegde, Arvind Krishna Sridhar, Yinyi Guo, Erik Visser

发布日期 2026-02-16

arXiv ID 2602.14612