HARMONI：基于大语言模型的多模态多用户人机交互个性化框架

摘要

现有人机交互系统在多用户环境中常缺乏持续个性化与动态适应机制，限制了其在现实场景中的有效性。本文提出HARMONI——一种多模态个性化框架，利用大语言模型使社交辅助机器人能够管理长期多用户交互。该框架整合四个关键模块：（i）感知模块用于识别活跃说话者并提取多模态输入；（ii）世界建模模块维护环境与短期对话上下文表示；（iii）用户建模模块更新长期说话者特定档案；（iv）生成模块产出上下文相关且符合伦理的回应。通过在四个数据集上的广泛评估、消融实验及养老院真实场景用户研究，验证了HARMONI在说话者识别、在线记忆更新和伦理对齐个性化方面的优越性，在用户建模准确性、个性化质量与用户满意度上均优于基线LLM方法。

AI 推荐理由

论文核心包含长期用户建模与在线记忆更新机制，是Agent Memory的关键应用。

论文信息

作者 Jeanne Malécot, Hamed Rahimi, Jeanne Cattoni, Marie Samson, Mouad Abrini et al.

发布日期 2026-01-27

arXiv ID 2601.19839