摘要
随着基于大语言模型(LLM)的智能体被部署于日益复杂的现实环境中,现有基准难以充分反映诸如全局约束执行、多工具协同推理以及在长期多轮交互中适应用户行为演变等关键挑战。为此,我们提出TRIP-Bench——一个基于真实旅行规划场景的长周期交互基准。该基准利用真实数据,提供18个精心设计的工具和40余项旅行需求,并支持自动化评估。其困难子集强调长而模糊的交互、风格变化、可行性变动及迭代版本修订。对话最多包含15轮用户输入、150余次工具调用,上下文长度可超20万token。实验表明,即使先进模型在简单子集上的成功率也不超过50%,在困难子集上则低于10%。我们进一步提出GTPO——一种在线多轮强化学习方法,结合专用奖励归一化与奖励差分策略,在Qwen2.5-32B-Instruct上显著提升约束满足能力与交互鲁棒性,优于Gemini-3-Pro。
AI 推荐理由
涉及长上下文记忆与多轮交互中的信息维护,但未聚焦记忆机制本身。
论文信息