audio question answering event retrieval LLM RAG edge-cloud architecture
摘要

随着工业和消费场景中长时音频数据的增多,如何高效地进行多小时录音的自然语言问答成为挑战。本文提出LongAudio-RAG(LA-RAG)框架,该框架通过检索时间戳标记的声学事件检测结果来增强大语言模型(LLM)的输出,而非直接使用原始音频。将多小时音频流转换为结构化的事件记录并存储于SQL数据库中,在推理阶段系统解析自然语言的时间参考、分类意图、检索相关事件,并基于这些约束证据生成答案。为了评估性能,作者构建了一个合成的长音频基准测试集,并展示了该方法在混合边缘-云环境中的实用性,其中音频定位模型在设备端运行,而LLM则部署在云端GPU服务器上。实验表明,基于事件的结构化检索显著提升了与传统RAG或文本到SQL方法相比的准确率。

AI 推荐理由

论文聚焦于LLM在长音频问答中的推理能力,通过事件检索提升准确性,属于推理能力的核心研究。

论文信息
作者 Naveen Vakada, Kartik Hegde, Arvind Krishna Sridhar, Yinyi Guo, Erik Visser
发布日期 2026-02-16
arXiv ID 2602.14612
相关性评分 8/10 (高度相关)