陆军棋的规则和玩法怎么放图片 陆军棋的规则和玩法

对棋类游戏的掌握程度,一直是判断人工智能(AI)是否真正智能的依据之一,因为这类游戏可以被用来评估 AI 代理在受控环境下自主开发和执行策略的能力 。
如今,AI 在此前尚未掌握的经典棋类游戏 Stratego(西洋陆军棋)中,表现出了人类专家级一般的水准——
以97%的最低胜率击败了其他 AI 机器人;在 Gravon 平台上与人类专业玩家对弈 , 取得了84%的总胜率,在年初至今和历史排行榜上都排在前三名 。
值得注意的是,这一惊人表现是在没有部署任何搜索方法的情况下实现的,这是 AI 之前在棋类游戏中取得多个里程碑式成就的关键 。
(来源:维基百科)
相关研究论文以“Mastering the game of Stratego with model-free multiagent reinforcement learning”为题,已发表在权威科学期刊Science上 。
多年来,Stratego 一直是人工智能行业的下一个前沿领域之一 。Stratego 玩家既需要有像玩国际象棋一样的长期战略性思考 , 也需要能够像打扑克一样处理不完全的信息 。
不完全信息,意味着参与人在进行博弈时不清楚博弈中的某些要素 。例如,在桥牌游戏中 , 玩家并不清楚其他玩家手中的牌,在拍卖会中,竞拍人并不清楚其他竞拍人对物品的估价 。
这个名为“DeepNash”的 AI 代理出自 DeepMind , 在他们看来,这代表了一个非凡的成果;同样,Stratego 社区也认为,这用现有技术是不可能实现的 。
Stratego 诞生于 1947 年,与中国陆军棋不同 , 其军衔、棋子数量较多,棋盘设计较为简单,没有铁路、行营,也没有裁判,当两方棋子相遇后,才会揭开来判断大小 。二者的相同之处,都是以夺得对方军旗或消灭所有可移动的棋子为胜利标志 。

陆军棋的规则和玩法怎么放图片 陆军棋的规则和玩法


图|陆军棋与 Stratego
Stratego 便是一种不完全信息游戏 。与之相反 , 国际象棋、跳棋、日本将棋和围棋可看作完全信息博弈,因为双方完全清楚游戏规则 , 当前局面对方可能的下法等信息 。
而且,Stratego 具有非常复杂的结构,其博弈树具有10^535种可能的状态,比无限德州扑克(10^164)和围棋(10^360)都要多 。
另外,在特定情况下,Stratego 玩家需要在游戏开始时推理出多于10^66对可能的排布,而在德州扑克中,这一数字仅为 10^6;完全信息游戏则没有这一阶段 , 相对更为简单 。
在 Stratego 中,双方各有代表元帅(Marshal)、将军(General)、上校(Colonel)、中校(Major)、上尉(Captain)、中尉(Lieutenant)、士官(Sergeant)、除雷兵(Miner)、斥侯(Scout)、间谍(Spy)、地雷(Bomb)、军旗(Flag)的棋子 。

具体游戏规则为:两方将所有己棋竖立、以正面朝后的方式排布,然后轮流移动一枚己棋;可以将棋子沿纵横方向移动一格至空格或敌棋处 , 但需要维持正面朝后;如果一方棋子到达敌棋处,便将两棋公开 , 一般胜方这一棋子会被放回原位且正面继续朝后,输方这一棋子则被移除游戏 。
陆军棋的规则和玩法怎么放图片 陆军棋的规则和玩法


图|胜负关系判定(来源:维基百科)
提前计划的能力 , 一直判断某一 AI 技术/代理是否成功的核心问题,Stratego 等不完全信息游戏,则常被用来测试 AI 代理依次做出相对缓慢、慎重和合乎逻辑的能力大小 。
然而 , 目前利用不完全信息搜索技术来掌握 Stratego 是不可能的 。
据论文描述,DeepNash 使用了一种博弈论的、无模型的深度强化学习方法 R-NaD,无需搜索,便能以从头开始的自我博弈方式来学习如何掌握游戏策略 , 比如虚张声势 。

推荐阅读