强化学习 对话系统 长期规划 自适应策略优化
摘要

开放式的对话代理旨在通过适应用户的特征来提供引人入胜、个性化的互动,但现有方法存在关键限制:过度依赖预收集的用户数据,以及强化学习(RL)中的短期偏见,忽视了长期对话价值。为了解决这些问题,我们提出了一种新的长时域强化学习框架,结合在线个性化与自适应树基组相对策略优化(AT-GRPO)。采用双代理博弈范式,用户代理通过风格模仿(学习用户特定的对话特征)和主动终止(预测回合级终止概率作为即时奖励)构建动态环境,形成一个迭代循环,推动对话代理深入兴趣探索。AT-GRPO将对话轨迹重新解释为树结构,并引入自适应观察范围。与全树扩展带来的指数级开销不同,它限制每个节点仅聚合来自阶段感知范围的奖励:较大的范围支持早期阶段的主题探索,而较小的范围有助于后期对话维护。这种设计将对话长度的展开预算从指数级降低到多项式级,同时保持对长期奖励的捕获。大量实验表明,我们的框架在性能、样本效率和鲁棒性方面均表现出色。

AI 推荐理由

论文提出了一种长时域强化学习框架,用于优化对话代理的规划能力,涉及任务分解和长期目标导向行为。

论文信息
作者 Kun Peng, Conghui Tan, Yu Liu, Guohua Tang, Zhongqian Sun et al.
发布日期 2026-02-09
arXiv ID 2602.08533
相关性评分 8/10 (高度相关)