强化学习 世界模型 策略优化 星际争霸II 决策系统
摘要

大型语言模型(LLMs)近期展现出强大的推理和泛化能力,激励其在复杂环境中作为决策策略使用。《星际争霸II》(SC2)因其庞大的状态-动作空间和部分可观测性,成为具有挑战性的测试平台。然而,现有的基于LLM的SC2智能体主要关注改进策略本身,而忽视了将可学习的动作条件转移模型整合到决策循环中。为弥补这一差距,我们提出了StarWM,这是首个针对SC2的世界模型,能够在部分可观测条件下预测未来观测。为促进对SC2混合动态的学习,我们引入了一种结构化的文本表示方法,将观测分解为五个语义模块,并构建了SC2-Dynamics-50k数据集,这是首个用于SC2动态预测的指令调优数据集。我们进一步开发了一个多维离线评估框架,用于预测结构化观测。离线结果表明,StarWM相比零样本基线有显著提升,包括资源预测准确率提高了近60%,以及自身宏观局势一致性提升。最后,我们提出了StarWM-Agent,这是一个集成StarWM的世界模型增强决策系统,将其纳入生成-模拟-优化的决策循环,以实现前瞻性驱动的策略优化。在线评估结果显示,StarWM-Agent在对抗SC2内置AI时表现稳定,分别提升了30%、15%和30%的胜率,同时改善了宏观管理稳定性和战术风险评估。

AI 推荐理由

论文聚焦于通过世界模型增强决策系统,实现前瞻性策略优化,直接涉及任务规划与多步决策。

论文信息
作者 Yixin Zhang, Ziyi Wang, Yiming Rong, Haoxi Wang, Jinling Jiang et al.
发布日期 2026-02-16
arXiv ID 2602.14857
相关性评分 9/10 (高度相关)