-
陈经:再次对决AlphaGo,柯洁的胜算有多大
关键字: AlphaGo人工智能围棋柯洁AI人机大战人类棋手如果布局能顶住,战胜AlphaGo的机会就会明显上升,因为从算法原理上AlphaGo仍然会有难以消除的弱点。
谷歌团队在AlphaGo训练到瓶颈以后,又搞了几种创新。除了前面提到的用价值网络选点补策略网络极大提升创新能力,可以肯定的是AlphaGo的训练速度提升了,从一月一个新版本进步到一周一个。另外,还用了强化学习领域的一个技术,做了一个Anti-AlphaGo来专门针对AlphaGo的弱点,更快改进提升跳出训练中的局部陷阱。这可能就是一周能出一个新版的技术原因。另外还有说法,AlphaGo的策略网络和价值网络改了模型,输入不再是三值(黑白无)的图形,每个点根据棋块的性质可以有几十个值,相当于用彩色图形输入进行深度学习图像识别训练了。也许这能提升计算速度,极大改进AlphaGo训练与下棋时的速度,快棋水平急剧提升。这次比赛据说AlphaGo会用完全舍弃人类棋谱从0开始训练的版本,这个版本无疑创新性会极强,完全不受人类成见的“污染”。具体会如何实在没法猜想,但棋谱会很有趣,说不定开局就不下角上。
这些改进一方面是提升了AlphaGo的下棋速度,另一方面提升了价值网络的水平,搜索时局面判断能力更强了。这让AlphaGo的判断更强,围地能力更强,抛离人类对手很多,是绝对的“围地大师”、“创新大师”。其实它自己并没有“创新”的感觉,它只是想围地,下出新招是对人类而言的。但是,能不能说AlphaGo是“战斗大师”?虽然它的战斗力也不弱,但明显不如布局创新这样能给人震憾。有一些局面,人类是奔着大战一场去的,Master却平淡地控制局面,绕开了这类看不清的“大决战”。
从算法原理上来说,对杀、死活、劫争之类的战斗局面主要靠MCTS展开搜索树推理。价值网络是不行的,静态的计算没法解决战斗问题。AlphaGo是有推理能力的,会展开二三十步的搜索树推理,算法进步、硬件进步能更扩展更多步。但是,这个框架就必然有一些机器的“难言之隐”。
有一些局面,人类的推理能够聚焦,集中去计算一块棋的死活,一个对杀的结果,有一些成熟的推理验算经验。但是AI算法很难把这个逻辑实现,可以合理推测,AlphaGo也没这个能力。它得按策略网络给出的概率去逐个点搜索,如果策略网络给出类似“只此一手”的极高概率,那和人类的感觉差不多,但往往并非如此。选点会不少,有时对杀应该聚焦高概率的点,有些局面又应该小概率的也搜搜看,算法只能全面照顾都去搜。这样,步数一多,算法就会面临“指数爆炸”。这是一个天生的缺陷,很难弥补。AI会碰到两类麻烦,一类是推理步数过长,出现“地平线效应”,棋局复杂度超过算法搜索能力,下出自以为能胜的败招。一类是漏算,棋块的死活以为算清楚了,其实有些小概率的点没考虑到,一个人类可以给出结论的必然推理过程被带歪了。
2017年3月22日世界围棋最强战,DeepZenGo执白负朴廷桓
如图,第225手时DeepZenGo已经是盘面都好的必胜局面了,朴廷桓打劫死撑。226手忽然放弃打劫封口围中央。早就在等机会的朴廷桓当然229手冲进白空中搞事,DeepZenGo坚决要吃掉229、231这些来“送死”的。但是233这手一出,DeepZenGo才发现自己算错了,这三个黑子吃不掉。这个误算其实发生在226手,由于选择与后续手数较多DeepZenGo配置不行搜索能力差一些,发生了“地平线效应”,觉悟过来时为时已晚。AlphaGo也出过同样类型的错,就是李世石著名的“神之一手”引发的误算。
2017年4月10日,党毅飞执黑胜绝艺
这盘棋野狐围观棋迷以为绝艺要胜了。白204先手接回2子,205做活包藏杀机。绝艺却混然不觉,208占官子大棋。黑终于等到209先手切断再211长,白上面大块已经连不回家,也无法做活。这个变化在人看来并不复杂,绝艺却犯了低级错误。绝艺的搜索框架还是有bug,要消除这类bug,需要艰苦的努力。
由于围棋的复杂性,很难确认一个程序真的消除了低级bug。甚至从原理上来说,深度神经网络存在错觉,而且难以消除。价值网络就是发神经认为一个输了的局面是胜的,或者策略网络就是对某个重要选点给极低概率,这都无法杜绝。这个版本的绝艺已经非常厉害了,还会出这样简单的bug。
这两类bug,第二类靠运气,不知为何AI就出bug了。第一类似乎人类棋手有主动操作的空间。理论上来说,要增多盘面上互相关联的“头绪”,这在中间开放式的战斗中常见。几块棋纠在一起,断点多,头绪互相有联系,这时策略网络、价值网络给出的概率不准,或者只能给出多个选择,还得靠MCTS搜索解决问题。如果头绪多、关联手数多、空间开放,产生“地平线效应”的概率就大多了。这不是说一味地强硬“战斗”,战斗本身并不会让搜索崩溃出bug,而是引而不发的“头绪”要多。
也许柯洁可以考虑,在盘面中积极制造头绪的战法。他本身这方面能力不错,东一下西一下搞事,搅棋的功夫很厉害。我感觉柯洁可能是和绝艺下得比较多,没有分清楚两类bug的区别。绝艺更多的是第二类bug,就是简单的出错,也能快速修复越来越少,不足为据。第一类的bug就很本质了,AlphaGo明显喜欢简化局面、控制流、避免复杂劫争,原因就是惧怕地平线效应。人类棋手应该反其道而行之,与它针锋相对。例如可以进行另类的局势判断,不数目,而是观察盘面头绪的多少与关联性,制造出新头绪就得分,被AlphaGo消除头绪就减分。
文章本天成,妙手偶得之。AlphaGo的bug绝对大量存在,怎么也排不光,只等柯洁去制造,去发现妙手。
围棋AI与人类的比赛,天生就极具看点。世界围棋最强战第三轮,朴廷桓与芈昱廷前两战都胜出,将争夺冠军,冠亚军奖金180万、60万人民币,一盘棋价值120万。两战皆负的DeepZenGo与井山裕太争夺第三名,奖金都是30万人民币。要是以前,两个负者的比赛就是篮球比赛里的垃圾时间,关注的人不多。但这次解说棋手和棋迷们却明显更关注DeepZenGo大模样作战完胜井山裕太这盘。这说明,哪怕是AI界老三的正式比赛也能引起相当大的关注,更不要说柯洁与AlphaGo的顶级对决。
近来柯洁正在绝艺的帮助下秘密训练,一些棋手感觉柯洁又涨棋了,继绝艺之后第二个成为野狐的10段(20战中对世界冠军和全国冠军18胜)。柯洁声称有对付AI的“秘密武器”,有人猜测是模仿棋,绝艺明显对付不了模仿棋,4次输在模仿棋上。但模仿棋是可破的,引发到中央的征子或者战斗就能破了。AlphaGo团队如果意识到这个问题,肯定有办法应对。虽然围棋规则比赛规则都允许模仿棋,我不希望柯洁在这么重大的正式比赛这么做。职业棋手们执白对Master时到是应该试一试,可惜只有周俊勋执黑试了一下也速败了。备战还是应该基于围棋基本技术与对AI算法的深入了解。柯洁对绝艺13连败明显事出有因,想试练一些招法速败。他在和绝艺内测时应该有所发现,“秘密武器”也可能是一些开局复杂劫争之类的。
有一种说法是由于柯洁败局已定,这次比赛社会关注度会不如去年人机大战。围棋足够复杂,AI也不是全能,还有很多不足,从原理上并非不可战胜。希望本文可以让更多人有理有据地提升对柯洁的信心。也希望棋界不要陷入必败舆论中无所作为,要全面正确认识AlphaGo棋力背后的算法,共同努力备战增加人类棋手的胜机。
本文系观察者网独家稿件,文章内容纯属作者个人观点,不代表平台观点,未经授权,不得转载,否则将追究法律责任。关注观察者网微信guanchacn,每日阅读趣味文章。
-
本文仅代表作者个人观点。
- 请支持独立网站,转发请注明本文链接:
- 责任编辑:小婷
-
以色列警告美国:一旦逮捕令下发,我们就对它动手 评论 124涉及俄罗斯,美国又对中企下黑手 评论 226内塔尼亚胡警告布林肯:以色列不会接受 评论 117“这是美国自信心下降的表现” 评论 153“美国没料到遇上中国这样的对手,出现战略失误” 评论 300最新闻 Hot