AI大装置成就职业级决策水平 商汤《星际争霸2》AI智能体公开首秀

来源:中国经济网6月12日,前《星际争霸2》中国冠军,现商汤科技智慧决策与游戏事业部技术研发负责人周航现身斗鱼直播间,向公众揭开了目前已开源项目中实力最强的《星际争霸2》AI模型DI-star的神秘面纱,并首次公开展示了DI-star与人类顶
来源:中国经济网
6月12日,前《星际争霸2》中国冠军,现商汤科技智慧决策与游戏事业部技术研发负责人周航现身斗鱼直播间,向公众揭开了目前已开源项目中实力最强的《星际争霸2》AI模型DI-star的神秘面纱,并首次公开展示了DI-star与人类顶尖职业玩家在游戏中的对决成果 。在演示的多场对局中,DI-star均表现出了人类最高段位宗师分段的竞技水平,并与全球一线职业选手水平相当,为探索决策AI技术在游戏领域的应用提出了全新路径 。
DI-star仅通过5周的训练时间便达到了媲美职业玩家的竞技水平,如此高效的训练成果正是源自商汤在决策AI领域领先的技术实力以及SenseCore商汤AI大装置提供的强大算力支持 。目前DI-star及其背后的决策智能平台OpenDILab已在GitHub开源,让每位有兴趣的AI研究员或玩家都能够深入其中,探索和实践决策AI技术的开发与应用,一同构建决策AI创新生态 。
精准决策、快速操控,DI-star高效制胜《星际争霸2》
人机对战的历史由来已久,从国际象棋到围棋,人工智能已逐渐具备了超越人类顶尖选手的决策能力 。今天,《星际争霸2》这款业界公认的具有超高游戏难度和公平竞技性的即时战略游戏,成为诸多AI争相挑战的新“珠峰” 。《星际争霸2》的空间复杂度高达10的1685次方,远远超出围棋10的170次方的复杂度 。在近乎天文数字一般的庞大状态空间中进行复杂的策略博弈,使得《星际争霸2》成为了检验AI决策能力的绝佳舞台 。
凭借长期的原创技术研究,商汤在决策智能领域积累了深厚技术实力 。本次直播中,周航通过多个对战演示片段,充分展现了DI-star灵活多变的决策能力,能够屡次在复杂对局中快速找到最优策略 。
DI-star融合了监督学习和强化学习等商汤多项前沿技术,为AI智能体赋予人类宗师分段水平的决策能力 。通过监督学习,DI-star让AI反复观摩人类职业玩家对战的高质量录像学习人类的打法,快速掌握资源采集、单位生产,以及战斗过程中成百上千步的决策行为 。在监督学习的基础上,DI-star通过强化学习让AI通过自我博弈的方式进行大量对局,持续提升全局的决策能力和整体的竞技水平 。
(DI-star靠精细微操建立前期优势)
(使用出女王前压这样的人类不常见战术出奇制胜)
商汤AI大装置加持,5周成就人类宗师分段水平AI智能体
SenseCore商汤AI大装置为DI-star的模型建立、训练和验证提供了强大的算法和算力基础,帮助DI-star用更短的时间达成媲美甚至战胜人类专业高手的对战水平 。依托SenseCore商汤AI大装置,DI-star仅用5周的时间,便完成了大约一亿局对战,最终成就了人类宗师分段的竞技水平 。
作为商汤原创打造的人工智能基础设施,SenseCore商汤AI大装置在为DI-star提供关键算力支撑的同时,还提供了丰富的工具和技术组件,帮助DI-star在训练过程中进行快速试错,高效地实验各种全新想法 。这使得DI-star在强化学习阶段可以用极短的时间快速尝试和验证不同决策行为产生的结果,驱动算法以惊人的速度进行迭代 。
【AI大装置成就职业级决策水平 商汤《星际争霸2》AI智能体公开首秀】尽管AI已经在《星际争霸2》上取得了显著的成果,但是对于这款游戏的理解依然尚未超越人类,例如存在选用不同种族对战的成绩差异较大的问题,同时在寻找游戏最优策略方面仍有很大的提升空间 。未来,商汤将依托SenseCore商汤AI大装置,持续深化决策AI技术的研发,不断提升算法的泛化性能,持续提升多智能体在复杂环境中的相互竞争和协调合作能力 。

推荐阅读