alteams,AL又称六甲官锭( 五 )


那时,人工智能还只能玩狄仁杰一个英雄 。几个月后,它们已经可以「五人」组队,在王者段位和人类玩家打得有来有回了 。
那么问题来了:王者荣耀的「前 1%」玩家是有多强?作为流行手机游戏,王者荣耀自上线到现在已经有三年了,有的高手早早就上了王者,但大部分都还卡在钻石和铂金段位上 。今年 10 月,腾讯官方统计了王者荣耀玩家的段位分布图:
看起来,能和 AI 打的至少需要是「最强王者」级别水平的玩家 。
以下是腾讯 AI Lab 在 arXiv 上传的最新一篇论文《Hierarchical Macro Strategy Model for MOBA Game AI》的相关内容:
AlphaGo 打败世界冠军李世乭让我们看到了通用人工智能的曙光(Silver et al. 2016) 。从那时起,游戏 AI 不仅引起了研究者的注意,还吸引了大量来自公众的目光 。游戏 AI 的目标远不止玩游戏的机器人那么简单 。游戏为模拟真实世界提供了理想的环境 。AI 研究人员可以在游戏中开展实验,并将卓越的 AI 能力应用到现实世界 。
尽管AlphaGo是通往通用人工智能的里程碑,但与现实世界相比,它所解决的问题仍然非常简单 。因此,研究者们近来更加关注即时战略游戏(RTS),如 Dota(OpenAI 2018a)、星际争霸(Vinyals et al. 2017; Tian et al. 2017),这些游戏涉及的问题更加复杂 。Dota 是一款著名的奇幻 5v5 多人在线战术竞技游戏(MOBA) 。每个玩家控制一个英雄,与其他四个队友一起保护防御塔,攻击敌人的防御塔并通过杀死小兵收集资源 。他们的目标是摧毁敌人的基地 。
作为 MOBA 游戏,王者荣耀内含防御塔、野区、装备等机制 。
与围棋相比,RTS 游戏的难度主要体现在四个方面:1)计算复杂度 。RTS 游戏动作空间和状态空间的计算复杂度可能达到 10^20,000,但围棋的复杂度只有 10^250 左右(OpenAI 2018b) 。2)
。RTS 游戏通常包含多个智能体 。多个智能体协调、合作非常关键 。3)信息不完整 。与围棋不同,许多 RTS 游戏利用战争迷雾(Vinyals et al. 2017))来增加游戏难度 。4)奖励稀疏、延迟 。在围棋中,基于游戏奖励进行学习的挑战性在于稀疏和延迟 。RTS 游戏长度通常大于 20,000 帧,而每局围棋通常不超过 361 步 。
围棋和 MOBA 的计算复杂度对比
为了掌握 RTS 游戏,玩家在宏观战略操作和微观执行方面都要有很强的技巧 。在最近的研究中,大多数注意力和研究都集中在微观执行方面 (Vinyals et al. 2017; Tian et al. 2017; Synnaeve and Bessiere 2011; Wender and Watson 2012) 。到目前为止,由 OpenAI 开发的 Dota2 AI 使用的是强化学习,OpenAI Five 已经取得了最先进的成果 (OpenAI 2018a) 。OpenAI Five 是通过最近的策略优化算法和团队奖励直接在微观动作空间上训练的 (Schulman et al. 2017) 。在 2018 年的国际比赛(DOTA2 2018)中,相比顶尖的职业 Dota2 队伍,OpenAI 展示出了强大的团队战斗技能与合作意识 。OpenAI 的方法没有明确地模拟宏观战略,而是使用微观操作来学习整个游戏 。然而,由于宏观战略管理薄弱,OpenAI Five 无法击败职业队伍 (Vincent 2018; Simonite 2018) 。
关于明确的宏观战略操作的研究已经做了不少,大部分都集中在导航上 。导航旨在为智能体提供合理的目的地和有效的路径 。大部分关于导航的研究都使用势力图(influence map)或势场法(potential field)(DeLoura 2001; Hagelb?ck and Johansson 2008; do Nascimento Silva and Chaimowicz 2015) 。势力图使用手工制作的方程式量化单元 。然后,使用规则将多个势力图融合,以提供单值输出来为智能体导航 。
就宏观战略操作而言,为智能体提供目的地是最重要的导航目的 。在正确的时间到达正确的地点至关重要,这也是高级玩家和其他玩家之间的区别 。在宏观战略操作中还使用了规划 。Ontanon 等人提出用对抗分层任务网络(AHTN)规划(Ontanón and Buro 2015)来搜索 RTS 游戏中的分层任务 。虽然 AHTN 在 mini-RTS 游戏中展示出了一定的前景,但它存在效率问题,这也导致很难将其直接应用于完整的 MOBA 游戏中 。

推荐阅读