alteams,AL又称六甲官锭( 六 )


虽然文献很多,但以前关于宏观战略的研究终究没能提供完整的解决方案:
首先,通过在微观动作空间层面学习来隐式地推理宏观战略可能会很困难 。OpenAI Five 在微观执行和宏观战略操作方面的能力差距很明显 。如果想让模型通过简单地观察微观动作和奖励后想出高级战略,这显然是过于乐观的 。作者认为明确的宏观战略建模十分必要 。
其次,先前关于明确的宏观战略的研究过于依赖于手工绘制的方程式来计算和融合势力图/势场法 。在实际操作中,通常有成千上万的参数需要手动决定,因此几乎不可能实现良好的性能 。而另一方面,规划方法无法满足完整 MOBA 游戏的效率要求 。
第三,RTS 游戏宏观战略操作中最具挑战性的问题之一是多个智能体之间的协调 。然而,据作者所知,先前的研究并没有明确地考虑这一点 。OpenAI Five 虽然在微观建模中使用了团队奖励来考虑多智能体协调问题,但每个智能体在独立做决定时并没有考虑队友的宏观战略决策,因此它很难在宏观战略级别发挥出最好的协调能力 。
最后,作者发现建模战略阶段对 MOBA 游戏中 AI 的表现至关重要 。然而,据其所知,先前的研究同样没有考虑到这一点 。
然而,教智能体学习宏观战略操作颇具挑战性 。首先,从数学上定义宏观战略,如围攻和分线推进就很困难 。此外,在 OpenAI Five 的强化学习框架(OpenAI 2018a)上加入宏观战略需要相应的执行才能获得奖励,但学习宏观战略操作本身就是很复杂的过程 。因此,作者认为监督学习是更好的方案,因为可以充分利用高质量游戏的回放来学习宏观战略以及相应的执行示例 。需要注意的是,通过监督学习学到的宏观战略和执行可以进一步作为强化学习的初始策略 。
图 1: (a) 王者荣耀游戏界面 。玩家使用左下角的虚拟键控制移动,用右下角的键控制技能 。玩家可以通过屏幕和左上角的小地图来观察环境 。(b) MOBA 示例地图 。双方队伍分别用蓝色和红色表示,每队拥有 9 个防御塔和 1 个基地 。四个野区分别标为 1、2、3、4 。
MOBA AI 宏观战略架构
MOBA AI 宏观战略模型的设计灵感来自人类玩家的战略决策方式 。在 MOBA 游戏中,经验丰富的人类玩家完全了解游戏的每个阶段,如开启期、对线期、游戏中期和游戏后期(Silva and Chaimowicz 2017) 。在每个阶段,玩家都要关注游戏地图并根据情况决定将英雄派往何处 。例如,在对线期,玩家会将更多的注意力放在自己的线路上,而不是支持队友 。但在游戏中期和后期,玩家会更加关注团战地点,向敌方的基地推进 。
宏观战略操作过程可以总结为「阶段识别-> 注意力预测-> 执行」 。为了建模这一过程,作者提出了一个双层宏观战略架构,如阶段层和注意力层:
阶段层旨在识别当前游戏阶段,这样注意力层就能更清楚地知道应该将注意力放在哪里 。
注意力层旨在预测地图上适合派遣英雄的最佳地点 。
阶段层和注意力层为宏观执行提供高级指导 。下文将详细说明建模细节 。宏观模型的网络架构几乎与 OpenAI Five1(OpenAI 2018a)中用到的结构一样,只不过前者是以监督学习的方式 。经过一些小幅修改,作者将其应用到《王者荣耀》中,例如删除 Teleport 。
图 2:分层宏观战略模型的网络架构
图 4:(a)在阶段层中建模的主要资源(即图中圈出的防御塔、基地、龙和暴君) 。(b)举例说明阶段层中的标签提取 。
图 5:为不同英雄角色学习的开放战略之一 。红圈内区域为最热门区域 。
图 7:相层输出上的 t-分布随机近邻嵌入 。嵌入数据样本按照不同的时间阶段进行着色 。

推荐阅读