陈经：AlphaGo升级成Master后的算法框架分析

APP下载

扫一扫

下载观察者APP

陈经：AlphaGo升级成Master后的算法框架分析
- 陈经风云学会会员，《中国的官办经济》
分享到：

2017-01-09 15:51:05 字号：A- A A+ 来源：观察者网

关键字: 围棋AlphaGoMaster算法框架

但是如果有价值网络对各个结果进行准确估值，Master可能在下24的时候就已经给出了结论，黑无论如何应，白棋都局势不错。陈耀烨自战解说认为，24这招他已经应不好了，实战只好委屈地先稳住阵脚，复盘也没有给出好的应对。同样的招法Master对朴廷桓也下过。

上图为Master执白对芈昱廷，左上角的大雪崩外拐定式，白下出新手。白44职业棋手都是走在E13长的，后续变化很复杂。但是Master却先44打一下，下了让所有人都感到震惊的46扳，在这个古老的定式下出了从未见过的新手。这个新手让芈昱廷短时间内应错了，吃了大亏。后来芈昱廷自战回顾时说应该可以比实战下得好些，黑棋能够厚实很多，但也难说占优。但是对白46这招还没有完全接受。这个局面很复杂，有多个要点，Master的搜索中是完全没有定式的概念的。

我猜测它会各种手段都试下，由于价值网络比过去精确了，可以建立一个比较庞大的搜索树，然后象国际象棋AI一样多个局面都考虑过之后综合出这个新手。这次Master表现得不怕复杂变化，而之前版本感觉上是进行大局掌控，复杂变化算不清绕开去。Master却经常主动挑起复杂变化，明显感觉搜索能力有进步，算路要深了。

局面评估函数精确到一定程度突破了临界点，就可以带来搜索能力的巨大进步。因为开发者可以放心地利用局面评估函数进行高效率的剪枝，节省出来的计算能力可以用于更深的推导，表现出来就是算得深算得广。实际人类的剪枝能力是非常强大的，计算速度太慢，如果还要去思考一些明显不行的分枝，根本没办法进行细致的推理。在一个局面人类的推理，其实就是一堆变化图，众多高手可能就取得一致意见了。而Master以及国际象棋AI也是走这个路线了，它们能摆多得多的变化图，足以覆盖人类考虑到的那些变化图给出靠谱的结论。

但这个路线的必须依靠足够精确的价值网络，否则会受到多种干扰。一是估值错了，好局面扔掉坏局面留着选错棋招。二是剪枝不敢做，搜索大量无意义的局面，有意义的局面没时间做或者深度不足。三是要在叶子节点引入快速走子下完的“验证”，这种验证未必靠谱，价值网络正确的估值反而给带歪了。

从实战表现反推，Master的价值网络质量肯定已经突破了临界点，带来了极大的好处，思考时间大幅减少，搜索深度广度增加，战斗力上升。AlphaGo团队新的prototype，架构上可能更简单了，需要的CPU数目也减少了，更接近国际象棋的搜索框架，而不是以MCTS为基础的复杂框架。比起国际象棋AI复杂的人工精心编写的局面评估函数，AlphaGo的价值网络完全由机器学习生成，编码任务更为简单。

理论上来说，如果价值网络的估值足够精确，可以将叶子节点价值网络的权重上升为1.0，就等于在搜索框架中完全去除了MCTS模块，和传统搜索算法完全一样了。这时的围棋AI将从理论上完全战胜人，因为人能做的机器都能做，而且还做得更好更快。而围棋AI的发展过程可以简略为两个阶段。第一阶段局面估值函数能力极弱，被逼引入MCTS以及它的天生弱点。第二阶段价值网络取得突破，再次将MCTS从搜索框架逐渐去除返朴归真，回归传统搜索算法。

由于价值网络是一个机器学习出来的黑箱子，人类很难理解里面是什么，它的能力会到什么程度不好说。这样训练肯定会碰到瓶颈，再也没法提升了，但版本V18那时显然没到瓶颈，之后继续取得了巨大进步。通常机器学习是模仿人的能力，如人脸识别、语音识别的能力超过人。但是围棋局面评估可以说是对人与机器来说都非常困难的任务。

职业棋手们的常识是，直线计算或者计算更周密是可以努力解决的有客观标准的问题，但是局面判断是最难的，说不太清楚，棋手们的意见并不统一。由于人的局面评估能力并不太高，Master的价值网络在几千万对局巧妙训练后超过人类是可以想象的，也带来了棋力与用时表现的巨大进步。但是可以合理推测，AlphaGo团队也不太可能训练无缺陷的价值网络，不太可能训练出国际象棋AI那种几乎完美的局面评估函数。

首页上一页 1 2 3 4 5 6 下一页余下全文
标签围棋人工智能 AlphaGo 算法搜索评估科技
- 请支持独立网站，转发请注明本文链接：
- 责任编辑:武守哲
搜索

   观察者头条查看全部

“TikTok只是烟雾弹，美情报机构才无时无刻都在…” 评论 64

获得军援后以色列不会违反国际法？美国多部门：不可信评论 78

最后通牒？以色列放话“要么签，要么打” 评论 130

“这把火怎么点着的？” 评论 423

布林肯来华谈的怎么样？是否不虚此行？评论 272

   风闻 · 24小时最热查看全部

   最新视频查看全部
最新闻 Hot
快讯

陈经：AlphaGo升级成Master后的算法框架分析

“这把火怎么点着的？”

“美国施压日韩荷再收紧对华限制，这次把手伸向工程师”

布林肯来华谈的怎么样？是否不虚此行？

不满加沙政策，美国务院第三人辞职

这把火烧到欧洲了

变调了，“美政府决定不制裁”

印度学者拱火：美国忙不过来，日本别管远方的乌克兰，先关注台湾

侵占数百万美元国有土地，乌克兰农业部长被捕

印度外长又狂怼尼赫鲁

“美国去死”宣传册，疯传美国高校

除了TikTok，美国还想封禁大疆

“中国主导地位摆在那，美国这么搞要完”

“看看，这就是美国的警察”

“中国市场就是健身房，不上强度跟不上”

“消息传到布林肯那了吗？”

桑德斯炮轰内塔尼亚胡：你这么干是侮辱我们美国人智商