摘要
现代AI代理虽然功能强大,但往往难以与用户的个性化、动态变化的偏好保持一致。现有方法通常依赖静态数据集,通过交互历史训练隐式偏好模型或在外部存储中编码用户画像。然而,这些方法在处理新用户和随时间变化的偏好时存在困难。本文提出了一种名为PAHF(从人类反馈中学习个性化代理)的框架,用于实现持续个性化,其中代理通过显式用户记忆在线学习实时交互。PAHF采用三步循环:(1)在行动前寻求澄清以解决歧义;(2)根据从记忆中检索出的偏好来指导行动;(3)通过事后反馈更新记忆以应对偏好的漂移。为评估该能力,我们开发了一个四阶段协议和两个基准测试,分别涉及具身操作和在线购物场景。这些基准测试量化了代理从零开始学习初始偏好并随后适应角色转变的能力。理论分析和实验结果表明,结合显式记忆与双通道反馈是关键:PAHF显著加快了学习速度,并始终优于无记忆和单通道基线方法,减少了初始个性化误差并实现了对偏好变化的快速适应。
AI 推荐理由
论文核心围绕显式用户记忆机制展开,提出基于反馈的个性化代理框架。
论文信息