在李世石与 AlphaGo 的对奕过程中,李世石对面有个将 AlphaGo 的棋步下到棋盘,并且将李世石的棋步再输到电脑上的人相信大家都留意到了,那这位代为落子者又是谁呢 。这位就是黄博士 。在Master这波60胜征战路上仍然由黄博士代为落子,那这位黄博士是谁呢?他就是谷歌 DeepMind 的资深研究员,也是 AlphaGo 的主要程序开发者黄士杰博士 。黄士杰从小热爱围棋,是个业余六段围棋选手 。2014年,其所在的deepmind公司被谷歌并购,黄士杰已经是公司内两位首席工程师之一 。
3Master庐山真面目
Master就是AlphaGo已经成为事实,那么AlphaGo是利用什么技术战胜人类的呢?关键在于程序,对于在谷歌DeepMind工作的黄士杰和他的小伙伴而言,他们使用了这些绝招:
第一招:“深度卷积神经网络”
深度卷积神经网络早在98年就攻克了手写数字识别,近些年在人脸识别、图像分类、天气预报等领域无往而不利,接连达到或超过人类的水平,是深度学习火遍大江南北的急先锋 。2015年黄士杰发表在ICLR的论文上提出了在程序中使出“深度神经网络”的杀招,从网上的围棋对战平台KGS(外国的qq游戏大厅)可以获得人类选手的围棋对弈的棋局 。观察这些棋局,每一个状态s,都会有一个人类做出的落子a,这样就可以得到上千万个样本 。通过汇集这些样本,我们得到了一个可以模拟人类棋手的策略函数P_human,给定某个棋局状态s,它可以计算出人类选手可能在棋盘上落子的概率分布a = P_human(s) 。
第二招:“MCTS,蒙特卡洛搜索树”
MCTS全称 Monte Carlo TreeSearch,是一种人工智能问题中做出最优决策的方法,一般是在组合博弈中的行动(move)规划形式 。它结合了随机模拟的一般性和树搜索的准确性 。MCTS 受到快速关注主要是由计算机围棋程序的成功以及其潜在的在众多难题上的应用所致 。超越博弈游戏本身 。搜索树的构建过程为:选择 Selection:从根节点 R 开始,递归选择最优的子节点(后面会解释)直到达到叶子节点 L 。扩展 Expansion:如果 L 不是一个终止节点(也就是,不会导致博弈游戏终止)那么就创建一个或者更多的字子节点,选择其中一个 C 。模拟 Simulation:从 C 开始运行一个模拟的输出,直到博弈游戏结束 。反向传播 Backpropagation:用模拟的结果输出更新当前行动序列 。
黄世杰则改进了MCTS,一上来不再是随机掷骰子,而是先根据P_human的计算结果来得到a可能的概率分布,以这个概率来挑选下一步的动作 。
第三招:“强化学习”
“强化学习”是一类机器学习方法,Agent通过和环境s的交互,选择下一步的动作a,这个动作会影响环境s,给Agent一个reward,Agent然后继续和环境交互 。黄世杰给围棋也设计一个评价函数v(s),在P_human()想象自己开局走了20多步之后,不需要搜索到底,如果有一个v(s)可以直接判断是否能赢,得到最后的结果r,这样肯定能进一步增加MCTS的威力 。
深度学习、蒙特卡洛搜索树,强化学习三招齐出才是AlphaGo60连胜的背后原因 。
4Master60连胜给我们带来的思考
正如古力在输给Master之后发的微博上所写的一样,人类与人工智能共同探索围棋世界的大幕即将拉开,新的围棋革命正在进行着 。。。这次牵引无数人关注的“人机大战”,又一次给人们展现了科技的强大,围棋这一古老的运动也再度展现了自己的魅力,藤泽秀行先生曾说:“棋道一百,我只知七 。”虽然这次表面上是人工智能横扫人类高手,但对任何一方来说,这场“七日之战”都意义非凡 。
推荐阅读
- 螃蟹脱壳是怎么回事,螃蟹脱壳是在什么时候?有什么前兆?
- 做菜放料酒和啤酒有什么不同
- 李白成名的故事,李白除了妙笔生花的故事还有什么故事?
- 凉薯是水果还是蔬菜,凉薯是什么季节收获的?
- 联通话费能充值什么
- 裤子尺码的2526指的是什么呢
- 宽带欠费不交会怎么样,宽带欠费了不交钱会有什么影响
- 麦芽糊精是什么添加剂,糊精属于什么附加剂?
- 女人换头像暗示什么意思
- 苦叶菜如何做,苦叶菜做干有什么办法?