摘要
主动大型语言模型(LLM)代理旨在通过多轮主动规划、查询和交互来高效完成任务,超越被动指令遵循,适用于现实世界中以用户为中心的应用。最近,代理强化学习(RL)被提出作为在多轮场景中训练此类代理的有前景方法,允许从反馈中学习交互策略。然而,现有流程面临在任务性能与用户参与度之间取得平衡的关键挑战:被动代理无法有效适应用户意图,而过度依赖人类反馈会降低用户满意度。为解决这一权衡问题,本文提出BAO,一种结合行为增强与行为正则化的代理RL框架,以丰富主动推理和信息收集能力,并抑制低效或冗余的交互,使代理行为与用户期望保持一致。我们在UserRL基准套件上的多个任务中评估了BAO,结果表明其显著优于主动代理RL基线,并在复杂多轮场景中实现了与商业LLM代理相当甚至更优的性能,突显了其在训练主动且与用户对齐的LLM代理方面的有效性。
AI 推荐理由
论文聚焦于主动代理的规划能力,提出行为代理优化框架以提升任务规划与用户意图对齐。
论文信息