陈经：再次对决AlphaGo，柯洁的胜算有多大

APP下载

扫一扫

下载观察者APP

陈经：再次对决AlphaGo，柯洁的胜算有多大
- 陈经风云学会会员，《中国的官办经济》
分享到：

2017-04-17 08:46:12 字号：A- A A+ 来源：观察者网

关键字: AlphaGo人工智能围棋柯洁AI人机大战

人类棋手如果布局能顶住，战胜AlphaGo的机会就会明显上升，因为从算法原理上AlphaGo仍然会有难以消除的弱点。

谷歌团队在AlphaGo训练到瓶颈以后，又搞了几种创新。除了前面提到的用价值网络选点补策略网络极大提升创新能力，可以肯定的是AlphaGo的训练速度提升了，从一月一个新版本进步到一周一个。另外，还用了强化学习领域的一个技术，做了一个Anti-AlphaGo来专门针对AlphaGo的弱点，更快改进提升跳出训练中的局部陷阱。这可能就是一周能出一个新版的技术原因。另外还有说法，AlphaGo的策略网络和价值网络改了模型，输入不再是三值（黑白无）的图形，每个点根据棋块的性质可以有几十个值，相当于用彩色图形输入进行深度学习图像识别训练了。也许这能提升计算速度，极大改进AlphaGo训练与下棋时的速度，快棋水平急剧提升。这次比赛据说AlphaGo会用完全舍弃人类棋谱从0开始训练的版本，这个版本无疑创新性会极强，完全不受人类成见的“污染”。具体会如何实在没法猜想，但棋谱会很有趣，说不定开局就不下角上。

这些改进一方面是提升了AlphaGo的下棋速度，另一方面提升了价值网络的水平，搜索时局面判断能力更强了。这让AlphaGo的判断更强，围地能力更强，抛离人类对手很多，是绝对的“围地大师”、“创新大师”。其实它自己并没有“创新”的感觉，它只是想围地，下出新招是对人类而言的。但是，能不能说AlphaGo是“战斗大师”？虽然它的战斗力也不弱，但明显不如布局创新这样能给人震憾。有一些局面，人类是奔着大战一场去的，Master却平淡地控制局面，绕开了这类看不清的“大决战”。

从算法原理上来说，对杀、死活、劫争之类的战斗局面主要靠MCTS展开搜索树推理。价值网络是不行的，静态的计算没法解决战斗问题。AlphaGo是有推理能力的，会展开二三十步的搜索树推理，算法进步、硬件进步能更扩展更多步。但是，这个框架就必然有一些机器的“难言之隐”。

有一些局面，人类的推理能够聚焦，集中去计算一块棋的死活，一个对杀的结果，有一些成熟的推理验算经验。但是AI算法很难把这个逻辑实现，可以合理推测，AlphaGo也没这个能力。它得按策略网络给出的概率去逐个点搜索，如果策略网络给出类似“只此一手”的极高概率，那和人类的感觉差不多，但往往并非如此。选点会不少，有时对杀应该聚焦高概率的点，有些局面又应该小概率的也搜搜看，算法只能全面照顾都去搜。这样，步数一多，算法就会面临“指数爆炸”。这是一个天生的缺陷，很难弥补。AI会碰到两类麻烦，一类是推理步数过长，出现“地平线效应”，棋局复杂度超过算法搜索能力，下出自以为能胜的败招。一类是漏算，棋块的死活以为算清楚了，其实有些小概率的点没考虑到，一个人类可以给出结论的必然推理过程被带歪了。

2017年3月22日世界围棋最强战，DeepZenGo执白负朴廷桓

如图，第225手时DeepZenGo已经是盘面都好的必胜局面了，朴廷桓打劫死撑。226手忽然放弃打劫封口围中央。早就在等机会的朴廷桓当然229手冲进白空中搞事，DeepZenGo坚决要吃掉229、231这些来“送死”的。但是233这手一出，DeepZenGo才发现自己算错了，这三个黑子吃不掉。这个误算其实发生在226手，由于选择与后续手数较多DeepZenGo配置不行搜索能力差一些，发生了“地平线效应”，觉悟过来时为时已晚。AlphaGo也出过同样类型的错，就是李世石著名的“神之一手”引发的误算。

2017年4月10日，党毅飞执黑胜绝艺

这盘棋野狐围观棋迷以为绝艺要胜了。白204先手接回2子，205做活包藏杀机。绝艺却混然不觉，208占官子大棋。黑终于等到209先手切断再211长，白上面大块已经连不回家，也无法做活。这个变化在人看来并不复杂，绝艺却犯了低级错误。绝艺的搜索框架还是有bug，要消除这类bug，需要艰苦的努力。

由于围棋的复杂性，很难确认一个程序真的消除了低级bug。甚至从原理上来说，深度神经网络存在错觉，而且难以消除。价值网络就是发神经认为一个输了的局面是胜的，或者策略网络就是对某个重要选点给极低概率，这都无法杜绝。这个版本的绝艺已经非常厉害了，还会出这样简单的bug。

这两类bug，第二类靠运气，不知为何AI就出bug了。第一类似乎人类棋手有主动操作的空间。理论上来说，要增多盘面上互相关联的“头绪”，这在中间开放式的战斗中常见。几块棋纠在一起，断点多，头绪互相有联系，这时策略网络、价值网络给出的概率不准，或者只能给出多个选择，还得靠MCTS搜索解决问题。如果头绪多、关联手数多、空间开放，产生“地平线效应”的概率就大多了。这不是说一味地强硬“战斗”，战斗本身并不会让搜索崩溃出bug，而是引而不发的“头绪”要多。

也许柯洁可以考虑，在盘面中积极制造头绪的战法。他本身这方面能力不错，东一下西一下搞事，搅棋的功夫很厉害。我感觉柯洁可能是和绝艺下得比较多，没有分清楚两类bug的区别。绝艺更多的是第二类bug，就是简单的出错，也能快速修复越来越少，不足为据。第一类的bug就很本质了，AlphaGo明显喜欢简化局面、控制流、避免复杂劫争，原因就是惧怕地平线效应。人类棋手应该反其道而行之，与它针锋相对。例如可以进行另类的局势判断，不数目，而是观察盘面头绪的多少与关联性，制造出新头绪就得分，被AlphaGo消除头绪就减分。

文章本天成，妙手偶得之。AlphaGo的bug绝对大量存在，怎么也排不光，只等柯洁去制造，去发现妙手。

围棋AI与人类的比赛，天生就极具看点。世界围棋最强战第三轮，朴廷桓与芈昱廷前两战都胜出，将争夺冠军，冠亚军奖金180万、60万人民币，一盘棋价值120万。两战皆负的DeepZenGo与井山裕太争夺第三名，奖金都是30万人民币。要是以前，两个负者的比赛就是篮球比赛里的垃圾时间，关注的人不多。但这次解说棋手和棋迷们却明显更关注DeepZenGo大模样作战完胜井山裕太这盘。这说明，哪怕是AI界老三的正式比赛也能引起相当大的关注，更不要说柯洁与AlphaGo的顶级对决。

近来柯洁正在绝艺的帮助下秘密训练，一些棋手感觉柯洁又涨棋了，继绝艺之后第二个成为野狐的10段（20战中对世界冠军和全国冠军18胜）。柯洁声称有对付AI的“秘密武器”，有人猜测是模仿棋，绝艺明显对付不了模仿棋，4次输在模仿棋上。但模仿棋是可破的，引发到中央的征子或者战斗就能破了。AlphaGo团队如果意识到这个问题，肯定有办法应对。虽然围棋规则比赛规则都允许模仿棋，我不希望柯洁在这么重大的正式比赛这么做。职业棋手们执白对Master时到是应该试一试，可惜只有周俊勋执黑试了一下也速败了。备战还是应该基于围棋基本技术与对AI算法的深入了解。柯洁对绝艺13连败明显事出有因，想试练一些招法速败。他在和绝艺内测时应该有所发现，“秘密武器”也可能是一些开局复杂劫争之类的。

有一种说法是由于柯洁败局已定，这次比赛社会关注度会不如去年人机大战。围棋足够复杂，AI也不是全能，还有很多不足，从原理上并非不可战胜。希望本文可以让更多人有理有据地提升对柯洁的信心。也希望棋界不要陷入必败舆论中无所作为，要全面正确认识AlphaGo棋力背后的算法，共同努力备战增加人类棋手的胜机。

本文系观察者网独家稿件，文章内容纯属作者个人观点，不代表平台观点，未经授权，不得转载，否则将追究法律责任。关注观察者网微信guanchacn，每日阅读趣味文章。

首页上一页 1 2 3 4 余下全文
标签围棋人工智能 AlphaGo
- 请支持独立网站，转发请注明本文链接：
- 责任编辑:小婷
搜索

   观察者头条查看全部

以色列警告美国：一旦逮捕令下发，我们就对它动手评论 124

涉及俄罗斯，美国又对中企下黑手评论 226

内塔尼亚胡警告布林肯：以色列不会接受评论 117

“这是美国自信心下降的表现” 评论 153

“美国没料到遇上中国这样的对手，出现战略失误” 评论 300

   风闻 · 24小时最热查看全部

   最新视频查看全部
最新闻 Hot
快讯

陈经：再次对决AlphaGo，柯洁的胜算有多大

涉及俄罗斯，美国又对中企下黑手

“美国威胁沙特：保留中国技术，就不帮你发展半导体”

德国外长炒作：这两国比我们更能感受到中国“狂风”

哥伦比亚要与以色列断交：巴勒斯坦亡了，人类就亡了

“这是美国自信心下降的表现”

“相比中俄，美国的内部敌人更危险”

他卸任前最后一次重要演讲：新加坡成功完全因为制度优秀

当众批特鲁多“疯子”，他被逐出议会...

“反对！那更比不上中国车企了”

内塔尼亚胡警告布林肯：以色列不会接受

“美国没料到遇上中国这样的对手，出现战略失误”

“德国拖欧洲的后腿”，又怪中国？

欧盟官员吓得提包就跑…

“美国搞的鬼，针对中国”

福建舰今日首次海试

针对新疆，美国又找新借口