100:0,新AlphaGo放弃了人类?

01、2017年10月19日 , 谷歌子公司DeepMind发布了AlphaGo的新版本 。很多人知道AlpoaGo是一个人工智能程序,却不知道它其实是一个家族 , 早期战胜韩国选手李世石的是AlphaGo Lee 。在乌镇击败世界冠军柯洁的是AlphaGo Master 。本次发布的是AlphaGo Zero(阿尔法零) , 它经过3天的训练便以100:0的战绩击败了他的哥哥AlphoGo Lee , 经过40天的训练便击败了它的另一个哥哥AlphoGo Master 。

100:0,新AlphaGo放弃了人类?


AlphaGo Zero与之前版本相比,最大的区别在于,它不再依靠人类的指导来成长 , 即之前的AlphaGo Lee是依赖于人工录入的大量棋谱来帮助其学习如何下棋,说白了,它是在人的指导下学习,可以理解为是人类千年围棋经验教出的学生 。
而AlphaGo Zero使用了强化学习算法,即不再依赖任何棋谱,编程人员输入围棋基本规则后,不再进行任何教导,完全由其自己进行摸索 , 总结走棋方法,相当于人工智能完全按照自己的方法学习 。AlphaGo Lee完败于摒弃了人类经验的AlphaGo Zero,这说明人类的经验可能误导了AlphaGo Lee,进而限制了它的发展 。
AlphaGo Zero的行棋方式在开局和收官阶段,与人类选手有较大的相似之处,而盘中的行棋风格的确与人类选手和之前版本的AlPhaGo有较大不同 , 而正是这种不同让其可以在100次与AlphaGo Lee的交战中立于不败,换个说法,如果当初AlphaGo Lee没有拜人类为师 , 而是向机器学习,那么对于拥有更强计算能力的AlphaGo Lee来说,胜负还未可知 。
除了零经验学习外 , AlphaGo Zero的另一大特点是将之前版本AlphaGo的两个神经网络融为一体,在之前版本的AlphaGo上,如何走棋是由“策略网络”和“价值网络”两个神经网络来计算如何行棋的 , 即首先由“策略网络”利用之前累积的经验,判断在当前棋型下哪些位置适合行棋,之后由“价值网络”对在这些位置行棋后的种种可能进行模拟,计算胜率,最终选择出行棋位置 。
而AlphaGo Zero将二者融为了一体 , 对之前两个网络的特征提取等模块进行了共用,可以在计算出可能行棋的位置时便给出相应的“胜率”,大幅提高效率 , 减少了训练所需的时间 。这也是AlphaGo Zero在训练了三天就打败了训练了几个月的AlphaGo Lee的主要原因之一 。
人工智能不仅是计算机科学领域发展的制高点,在所有行业都具有无限潜力和应用价值,目前世界各国普遍看好,人工智能技术将成长为下一次技术革命契机 。即便最终人工智能没有达到革命级别的颠覆程度,AI已经在逐渐改变我们的生活 。
以往人工智能的进步都是建立在软件与硬件同步发展的基础上 , 神经网络算法最早在上个世纪中叶就被提出,然而受限于计算能力,神经网络算法一直发展缓慢 。
之后随着硬件计算速度的不断提高,已有的软件算法不断被实现并改进,改进的算法对硬件要求更高,从而进一步促进了硬件的发展,而AlphaGo Zero的出现完全建立在算法更新的基础上 。
前一版本的AlphaGo需要在48个TPU(谷歌专为加速深层神经网络运算能力而研发的芯片 , 一块成本即达500万美元)上进行几个月学习,而AlphaGo Zero只需要4个TPU加上几天的时间便可完成学习 。这种零经验学习能力非常适合在蛋白质折叠和其它缺少样本的医疗领域进行应用,可以很好地解决因缺少试验样本而导致研究进展缓慢的问题 。未来的相关研究中完全可以输入规则后利用AlphaGo Zero的能力进行模拟,最后利用有限的样本进行验证即可 。
AlphaGo逐渐升级之路
故事讲到这里,实在不得不佩服谷歌深厚的技术实力与精明的商业头脑 。AlphaGo从诞生伊始 , 就得到了deepmind团队的精心包装,仔细回想起来,可谓是“城里套路深” 。

推荐阅读