摘要
长期推理是自主代理的关键挑战,但现有基准仅评估单个任务。实际组织工作需要管理多个并发的长期任务,涉及交错、依赖和重新优先级排序。本文引入多时间跨度任务环境(MHTEs),要求在持续执行上下文中协调数十个交错任务(45+,500-1500+步)。研究识别出四种导致基线CUA完成率从16.7%下降至8.7%的失败模式,并提出CorpGen框架,通过分层规划、子代理隔离、分级记忆和自适应摘要解决这些问题。实验表明,CorpGen在OSWorld Office上实现3.5倍性能提升,验证了其架构机制的有效性。
AI 推荐理由
论文聚焦于多时间跨度任务环境中的规划能力,提出分层规划和子代理隔离等机制以提升长期任务执行效果。
论文信息