这是迄今为止,AlphaGo算法最清晰的解读!( 六 )


14、AlphaGo下棋为什么花钱?
AlphaGo有单机版,多机(分布式) 。分布式明显比单机强 。去年的分布式有40个搜索线程,1202个CPU,176个GPU(显卡) 。和李世石下棋时可能更多 。这么多机器的运作和维护就是烧钱 。
15、AlphaGo有漏洞吗?
AlphaGo解决的是一个树搜索问题 , 并不是遍历所有着法的可能性,她的着法只是接近正解,不是一定正解 。
最简单的人战胜AlphaGo的方法就是改规则,比如扩大棋盘 。人类能比较简单的适应,搜索空间增大,AlphaGo不一定能适应 。
就现有状况来说 , 棋手可以主要攻击AlphaGo模拟中的着法选择函数a 。比如尽量下全局互相牵扯的棋(多劫,多块死活),就是尽量是中盘局面复杂,不要搞一道本(一条路走到底)局部的着法,当然,这对职业选手也不简单 。
16、AlphaGo有哪些技术突破,使她能战胜人类顶尖棋手?
⑴继承了蒙特卡洛树搜索的框架进行模拟 。
⑵在学习policy中使用了监督学习 , 有效的利用现有的棋手的棋谱 , 学到了他们的选点策略 。
⑶在学习policy中使用了增强学习,从左右互搏中提高自己 。
⑷利用policy net(选点模型)近似正解,用policy net的对弈的结果模拟正解对弈的结果,即正确的形势判断,从而打破形势判断和选点相互嵌套的死结 。就是先学policy,再学value 。
⑸在学习policy,value,rollout中使用深度学习模型 。深度学习有非常强的学习能力 。使得选点和形势判断前所未有的准(对比蒙特卡洛是随机选点,现在是职业棋手帮她选点了) 。因为在每次模拟中用到了这两个“准”,使得在树搜索(就是推演)的过程更有目的性(树大量减枝 , 只模拟比较优良的下法)
【这是迄今为止,AlphaGo算法最清晰的解读!】⑹当然还有机器一贯的优势 , 不疲劳,不受心理情绪影响 , 不会错的记忆力等等 。

推荐阅读