摘要
人类对话通过隐式的思维链组织,表现为定时的语言行为。捕捉这一感知路径是构建自然全双工交互系统的关键。本文提出一种框架,将该过程建模为多级感知,并通过思维图(GoT)进行对话行为推理。该方法采用分层标注方案形式化意图到动作的路径,预测高层沟通意图和低层语言行为以学习其因果和时间依赖关系。为了训练该系统,我们开发了一个高质量语料库,包含可控且事件丰富的对话数据及人工标注标签。GoT框架将流式预测结构化为一个动态演化图,使Transformer能够预测下一个语言行为、生成简洁的决策依据并动态优化推理。在合成和真实全双工对话上的实验表明,该框架实现了稳健的行为检测,生成可解释的推理链,并为全双工语音对话系统的对话推理基准测试奠定了基础。
AI 推荐理由
论文核心研究基于多级感知的对话行为建模与推理机制,涉及因果和时序依赖关系。
论文信息