摘要
深度研究(DR)代理通过自主检索和综合大规模网络语料库中的证据生成长篇报告,扩展了大语言模型(LLMs)的参数化知识,实现了长期视角的智能体范式。然而,与实时对话助手不同,DR计算成本高且耗时,导致自主性与交互性的矛盾:在模糊用户查询上高自主性常导致执行时间过长且结果不理想。为此,我们提出IntentRL框架,训练主动代理在开始长期研究前明确潜在用户意图。为克服开放性研究数据稀缺的问题,我们引入了一个可扩展的流程,通过浅到深的意图优化图将少量种子样本扩展为高质量的对话回合。此外,我们采用两阶段强化学习(RL)策略:第一阶段在离线对话中应用RL以高效学习通用用户交互行为,第二阶段使用训练好的代理和用户模拟器进行在线推演,以增强对多样化用户反馈的适应能力。大量实验表明,IntentRL显著提升了意图命中率和下游任务性能,优于封闭源DR代理内置的澄清模块和主动LLM基线。
AI 推荐理由
论文涉及Agent在处理用户意图时的主动澄清机制,与记忆相关但非核心主题。
论文信息