多任务规划 长期推理 自主代理 企业环境模拟
摘要

长期推理是自主代理的关键挑战,但现有基准仅评估单个任务。实际组织工作需要管理多个并发的长期任务,涉及交错、依赖和重新优先级排序。本文引入多时间跨度任务环境(MHTEs),要求在持续执行上下文中协调数十个交错任务(45+,500-1500+步)。研究识别出四种导致基线CUA完成率从16.7%下降至8.7%的失败模式,并提出CorpGen框架,通过分层规划、子代理隔离、分级记忆和自适应摘要解决这些问题。实验表明,CorpGen在OSWorld Office上实现3.5倍性能提升,验证了其架构机制的有效性。

AI 推荐理由

论文聚焦于多时间跨度任务环境中的规划能力,提出分层规划和子代理隔离等机制以提升长期任务执行效果。

论文信息
作者 Abubakarr Jaye, Nigel Boachie Kumankumah, Chidera Biringa, Anjel Shaileshbhai Patel, Sulaiman Vesal et al.
发布日期 2026-02-15
arXiv ID 2602.14229
相关性评分 9/10 (高度相关)