陈经：柯洁与AlphaGo第二局的精彩看点

APP下载

扫一扫

下载观察者APP

陈经：柯洁与AlphaGo第二局的精彩看点
- 陈经风云学会会员，《中国的官办经济》
分享到：

2017-05-25 18:53:47 字号：A- A A+ 来源：观察者网

关键字: 人机大战柯洁AlphaGo柯洁阿尔法狗第二局AlphaGo升级版Master柯洁输了

【文/观察者网专栏作者陈经】

2017年5月25日，三番棋中以0:1落后的柯洁执白与AlphaGo再次对局，155手中盘告负。虽然第三局还要下（柯洁执白的请求得到同意），但三番棋已经0:2告负。

但是本局令人激动，柯洁成功将棋局导向特别复杂混乱的局面（正如笔者上篇预期）。柯洁自己与不少职业解说都感觉有胜机了，棋迷们更是热血沸腾，希望看到战胜AlphaGo的奇迹出现。虽然没有透露更多数据细节，哈萨比斯也两次发信息，说柯洁表现非常好，前面表现完美，后面将AlphaGo逼到了极限。赛后发布会上，哈萨比斯说“前100手双方差距非常小”，从来没有其它棋手做到过这一点。这说明柯洁确实是人类最强棋手。

柯洁 VS AlphaGo第二局（中新网）

前两局中间的的研讨会上，Deepmind公布了AlphaGo的升级版本Master的一些研发思路，而且说在6月份会像上次的《自然》论文一样公布细节，帮助其它公司做出和Master一样强大的围棋AI。我根据这些信息，写了一些分析发给了应氏杯冠军唐韦星，希望对柯洁，以及唐韦星参加的对AlphaGo的五人相谈棋有帮助。唐韦星认为有道理，是要将局面导向复杂，但感觉很难做到。他将我们的对话公布在了微博上，柯洁也看到了，引发了热烈讨论。

由于之前Master的60局，它都能简单地控制局面，所以职业棋手们虽然知道不能这么简单地输，要制造复杂局面，但确实不知道怎么下才行。但是本局柯洁前半盘的完美表现说明，这是可以做到的！100手之后，黑白双方一度有九块棋不安定，还有一个天下大劫，即使与人类棋手的激烈对局相比，都算是很复杂的。

本文我先根据研讨会上Deepmind团队透露的信息，解释Master的技术秘密，为什么它居然能让李世石版本的AlphaGo三子。然后再介绍本局的精彩之处。

一．Master强大的秘密在于它是“复盘大师”

其实Deepmind用策略与价值两个网络构造围棋AI，并让它不断自我对弈学习进步的思想，与人类高手群体下棋时的思维以及棋艺进步的过程是相通的。抛开计算机术语，AlphaGo的研发思路并不难理解。

人类高手下围棋时，脑子里更多是把整个棋盘当作一幅图像在进行“图像处理”，而不是象国际象棋高手那样主要在逻辑推理。AlphaGo就引入在图像识别领域的神器“深度学习”，构造了“策略网络”来模仿人类高手看到棋局时的直觉选点。有了深度学习，这其实是很自然的一步。

人类高手还要进行局势评估，其实也是盯着棋局图像看。因此，同样做一个“价值网络”让AI可以直接对一个局面进行胜率评估，也容易理解。但这很有难度，因为训练策略网络时，一局棋机器可以学习上百手，但价值网络为了独立性，一局最好只学习一个局面。深度学习是需要上百万个样本的，对策略网络人类高手下的十来万局棋足够了。Deepmind创新地让众多服务器暴力自我对弈生成了3000万棋局，用于价值网络的训练。这个暴力一开始难以想到，但有这个条件了，这么想也是自然的。腾讯开发绝艺时，也这么办了，机器自我对弈了30亿局。

有了策略与价值网络，再加上以前就有的蒙特卡洛搜索，机器就能以很高的水平下棋了。然后机器疯狂地自我对弈，产生棋局，用这些棋局回头去改善策略与价值网络，一代代循环改善，这就是“强化学习”。

但是按《自然》论文，AlphaGo自我对弈的训练框架其实是比较简单的。就是自我对弈出了结果，然后用这局的结果当一个数据项，回头修改策略与价值网络的系数。由于系数多达几百M，这种反复自我对弈来回改进需要很多局才告一段落出一个新版，一次需要一个月。

这有点象是人类高手在网上互相下。下完出了结果，有一方输了，然后就散伙走人了。输的人想，我换点着法吧，又去下，有进步觉得自己换对了，没进步就否了再想别的招算了。这输的人进步也就比较慢。

实际上人类高手是很崇尚复盘的，一般正式对局结束了不会立刻走人，而是细细总结下双方哪里下得不好，败招胜招都是些啥。有时复盘甚至会搞两三个小时，旁观的高手也来。有时人类高手还会搞“研究会”或者“国家队”，组团研究新型，研究“秘密武器”。如果棋手能积极参与这些复盘，或者有渠道了解到集体复盘得出的有价值信息，再去网上演练与实战对局，进步速度会比较快。

有时低手付钱，或者和高手关系好，高手也会给低手复下盘。但由于低手基本是犯了些基本功之类的简单错误，这类复盘对高手意义不大。但是，高手们的对局是很有价值的。虽然为了后面的比赛说下完了要忘掉，那是说把结果忘掉，对局过程不能就忘掉，应该去好好研究总结这种双方拼脑子下出来的宝贵棋局。复盘是很关键的，对于人类高手群体一起进步作用是很大的。当初李昌镐保守避战拼官子的下法，让棋界很震惊。高手们集体研究，也慢慢知道了他的技术秘密，所有高手官子水平都有进步，不然就没法当高手了。

Master相比与李世石对战的AlphaGo，进步就在复盘这里。李世石版的AlphaGo后来自我对局提升，已经进入瓶颈了，下再多盘改进系数棋力也进步不大。Deepmind团队决定，推出新的架构升级成Master，将两个多层神经网络的层数从13增加到40，进行更有价值的“复盘学习”。

Master自我对弈学习的时候，就不是只用对局结果这个数据项了。它会回过头来，考察对局过程中每一步棋。两个程序自我对弈时，它每一步都是有由策略网络、价值网络、MCTS三者“火力全开”搜索后，再决定下哪一步，这一步往往和策略网络的第一直觉不一样。理论上来说，三者结合搜索出来的点，应该比一眼直觉出来的好。这时，就可以重新训练策略网络，让它第一直觉就落到那个点。一局棋，有上百步都可以这么做，策略网络美滋滋地吸收了一局棋的全部营养。

1 2 3 下一页余下全文
标签人工智能围棋乌镇
- 请支持独立网站，转发请注明本文链接：
- 责任编辑:马密坤
搜索

   观察者头条查看全部

马斯克公开反对禁止TikTok 评论 112

伊朗外长否认以空袭：除非遭重大袭击，否则不予回应评论 262

重庆通报“燃气费异常”：燃气集团党委书记被免职评论 803

“伊以都在降调”，国对国直接打击结束？评论 168

以色列“有限复仇”：选在了伊朗核计划中心评论 358

   风闻 · 24小时最热查看全部

   最新视频查看全部
最新闻 Hot
快讯

陈经：柯洁与AlphaGo第二局的精彩看点

伊朗外长否认以空袭：除非遭重大袭击，否则不予回应

特朗普“封口费”案法庭外，男子自焚

“美国在中东再怎么牵扯精力，不能忘了中国才是头等大事”

马斯克公开反对禁止TikTok

“伊以都在降调”，国对国直接打击结束？

美方挑事：中国做出贡献，威胁全欧洲

印度大选开锣，莫迪稳赢了？

俄气真香？欧盟机构警告：一时断不了

“德国车是世界上最好的，不必害怕中国，但…”

抛弃自家兄弟，肯尼迪家族15人支持拜登

“拜登考虑再援以10亿美元武器”

日教材称“殖民推动韩国近代化”，韩外交部召见日大使抗议

重庆通报“燃气费异常”：燃气集团党委书记被免职

G7竟威胁中国：跟俄罗斯走近，与西方就远

以色列“有限复仇”：选在了伊朗核计划中心

5.3%，一季度“开门红”能转化为“全年红”吗？