-
陈经:再次对决AlphaGo,柯洁的胜算有多大
关键字: AlphaGo人工智能围棋柯洁AI人机大战三、AlphaGo的算法进步与人类棋手的应对
打了很多比喻,还是要具体说算法。AlphaGo在去年3月以后,算法框架又有了突破。但是从种种迹象来看,围棋AI下棋还是依靠三大技术:给出搜索候选点的策略网络、评估局势的价值网络、展开搜索树模拟至终局数子的MCTS(蒙特卡洛树形搜索),这三大技术全部以“胜率”这样的概率输出统一起来。AlphaGo、绝艺、DeepZenGo,以及一些更弱的AI都是这样下棋的,在基本框架上没有本质区别,有的没有价值网络。谷歌团队厉害的是,在训练上有很多突破,做出来的策略网络、价值网络在质量与特性上,比其它AI要厉害得多。
在策略网络上,围棋AI都是学习人类高手棋谱训练的,AlphaGo的策略网络并不突出。这是一个深度学习训练问题,Facebook的Darkforest在预测人类高手着手时正确率还更高,也有一些业余开发者做出了不错的策略网络。AlphaGo展现的高超实力,并不是靠策略网络,它的开发门槛不高。
但是价值网络的开发门槛很高。只有谷歌这种大公司,才能动用十几万个服务器产生几千万局机器自我对弈棋局,用于价值网络的训练。后来腾讯也做到了,绝艺自我对弈超过30亿局。而DeepZenGo的价值网络训练就似乎不容易,开发者加藤英树抱怨合作公司的支持不够。DeepZenGo的价值网络甚至犯了这样一个错:
2017年3月22日世界围棋最强战,DeepZenGo执白负朴廷桓
这个局面左上部的几个白子是死棋,连业余棋手都知道。但是DeepZenGo的价值网络却判断是“双活”,给出了完全错误的胜率判断。这个局部看上去和双活的棋形很象,黑棋要吃掉白要经过一定次序的紧气。这说明,价值网络是根据静态的相似棋形来判断的,不管怎么训练它的搜索能力都很差。绝艺和AlphaGo的价值网络训练的棋局数多,表现肯定好些,但也还是静态的卷积神经网络计算,不具备动态的搜索能力。
从算法原理上就可以确信,无论怎么训练,价值网络都存在“bug局面”。比如复杂的对杀、局部棋块死活,价值网络肯定会作出错误判断。网上实战,绝艺和DeepZenGo就经常判断错误。AlphaGo的价值网络肯定也有bug局面,它总是一个静态的神经网络,就算系数多达几百M,也不可能解决需要复杂推理的棋块死活问题,深度神经网络没有这种神奇能力。正如人类高手看一眼棋局,也不能说出局部是死是活,得花些时间计算,除非以前见过这类“局部常形”。
这也是围棋奇妙的地方,局面稍有差别,价值网络可能以为是一回事,但死活就可能倒转,倒转突变程度远超国际象棋。价值网络常见棋形训练多了知道是死是活,但如果局部棋形没出现过或者训练不足,就可能发生死活误判。而且神经网络深度学习训练也不是说堆积样本就一定能全部训练正确,总会有一定差错率。训练会进入瓶颈,这个训练弄对了,原先对的那个又错了。包括策略网络的训练,预测人类高手着手正确率只会是50%多,再高上不去了,也没意义。谷歌可以堆机器把训练做得更快,但不可能让价值网络产生神奇的能力,bug局面绝对大量存在。
据Deepmind透漏,2016年3月以后,AlphaGo的训练流程确实进入了瓶颈,应该是训练出来的新版对上一个新版棋力提升不多了。价值网络和策略网络再怎么训练,棋力也没有显著提高了。这时谷歌开发团队又做出了一个创新,可能就是Master神秘实力的重要来源。
之前围棋AI是学习人类高手棋谱生成策略网络的,但是人类高手群体其实有很多盲区!就像后来不少高手看到Master的表现说,像开局点三三之类的着手,没有一个棋手想得到,集体没往那个方向想,但其实是可行的。学习人类高手棋谱,这些新招只会有极低的预测概率,就搜索不到了。但是开发团队发现,有些选点,虽然策略网络不看好,但真要下出来,价值网络却给出了不错的评分。可以在训练中对价值网络海量尝试,补充一些胜率不错的选点给策略网络,又经过搜索与海量对弈发现,这确实是不错的选点。这就是Master新招不断的技术秘密,其实也没那么神奇。人类棋手没有明确的价值网络,也不可能天天去试一些奇招。而机器自我对弈学习却可以这么做,训练流水线运转起来后,所有选点都试一下不过是写个循环,靠机器算力猛试就行了。就算绝大部分失败,只要找到一些新招就足以震憾人类棋手了。
最后结果就是,获得价值网络的回赠之后,Master的策略网络已经和人类棋手很不一样了,人类棋手不敢想的招,Master敢想敢下。Master和人类棋手60局对局,几乎每局都有这种人类想不到的招,这也是棋手们对Master十分敬畏的来源。人类棋手要创新很难,能不断下出可行新招的棋手会得到极高的推许,正如吴清源大师,不知道他为什么那么能创新。但是Master的创新却不难理解,就是极高质量价值网络的附加效应。其实Master的新招下出来以后,人类棋手慢慢也能理解了,甚至在实战中应用了。
2016年12月31日,Master执黑对金庭贤
Master在17位挂了以后,19位直接开局点三三,惊爆眼球。棋手们总结后也理解了,实战要点是不能D2位扳粘凑白虎成铁厚,而两侧的黑子能限制白厚势的发展。后面条件成熟,黑就能从两侧攻逼这块厚势,E5的点会很犀利。人类更多是没往这个方向想,而不是不能理解。机器的价值网络是中立的,下出来它就冷静地全盘评估,没有人类阻碍创新的固有错误逻辑,天然就能发现好点。Master的很多新手都有这个特点。朴永训在正式比赛中对於之莹也是开局点三三,而且还胜了,复盘这招也是可行的。
可以从理论上相信,AlphaGo的价值网络,加上MCTS终局数子,对地域的估算比人精确得多。对于一些虚虚的厚势,人类很难讲清楚其价值,AlphaGo却有成熟的套路给出胜率评估。以此为基础,AlphaGo的价值网络加上搜索,在很多局面能发现人类的盲点,找出更恰当的围地选择。如果围棋是一个双方和平围地的游戏,理论上人类棋手就可以认输了。实际上Master的60局中不少就是如此,没有激烈的战斗,几个选择后,人莫明其妙就落后了。其实就是围地搞不过AlphaGo。
围地就是子力的配合,角上、边上、中央,配合的方式多种多样,有的子能自己围,有的能破对方。几面围起来空挺大,但是对手进来一个头效率就剧降,围地的效率很有讲究。棋块的方向选择互相配合非常关键,低手往往想象不到这有多重要。
2009年9月4日,第一届丰田杯八强赛李昌镐执黑胜阿基鲁尔
阿根廷业余棋手阿基鲁尔曾杀入世界大赛八强与李昌镐对局,完全没战斗,就是划分地域,到这个局面就落后30目了。黑棋的子都围了很结实确定的地,白棋边角的确定地不多,棋块形成的厚势面对黑的活棋没有作用,相互配合又成不了大空。
-
本文仅代表作者个人观点。
- 请支持独立网站,转发请注明本文链接:
- 责任编辑:小婷
-
涉及俄罗斯,美国又对中企下黑手 评论 134内塔尼亚胡警告布林肯:以色列不会接受 评论 110“这是美国自信心下降的表现” 评论 143“美国没料到遇上中国这样的对手,出现战略失误” 评论 296“美国搞的鬼,针对中国” 评论 224最新闻 Hot