陈经：被围棋AI横扫后，职业棋手应该如何提高水平？

APP下载

扫一扫

下载观察者APP

陈经：被围棋AI横扫后，职业棋手应该如何提高水平？
- 陈经风云学会会员，《中国的官办经济》
分享到：

2017-01-04 19:25:10 字号：A- A A+ 来源：观察者网

关键字: 围棋AI柯洁MasterAlphaGo谷歌人工智能价值网络算法

中韩高手们集体实战验证套路的办法，其实暗合了AlphaGo强化学习生成价值网络的方法。AlphaGo会进行几千万次的高质量“自我对局”，比高手们的对局加起来都多得多。人类高手们反复实战能判断几十个局面都不容易，AlphaGo的训练流水线却能生成几千万个局面，用于价值网络的训练。

价值网络是个和策略网络结构相似的多层神经网络，但是里面的系数不一样，它能对一个静态局面不搜索直接给出胜率，判断谁占优。有了策略网络与价值网络，AlphaGo不需要搜索都可以下得很好了，对每一招策略网络提供的选点，价值网络给出胜率判断，选择最好的一个选点下就可以了。2016年中Deepmind说AlphaGo棋力取得突破，就特别说了价值网络取得了巨大的进步。

价值网络是人类思考中没有的，在谷歌论文之前甚至没有这个概念。从学术角度来说，这可能是谷歌论文最大的贡献，深度学习生成策略网略并非Deepmind最先提出的。虽然对人类来说有点不自然，但价值网络正是人类可以学习的地方，职业高手们也许能从这个方向上取得棋力的突破，但需要科学的方法。

人类能通过多次实战、打谱，在脑中形成直觉，看一眼局面就能根据棋形产生一些靠谱的候选点。对人类直觉方便之处在于，候选点有“局部性”，人只要看局部就能有“关键”点的直觉。有时一些照顾全局的棋招会被夸张地称为“耳赤妙手”。人类自然倾向就是局部观察，眼睛看画面时自然会聚焦在一小块地方，棋手思维也是如此。高手要逆着这个直觉观察全局，多找一些候选点。范西屏是中国古代水平最高的棋手之一，李步青对其它人这样形容他的棋艺：“君等于弈只一面，余尚有两面，若西屏先生则四面受敌者也”，这是说范西屏全局观念特别强。

但这种全局观念毕竟难于描述，成了高手中只可意会不可言传的“大局观”。人类对局部的精确描述却不断取得进展，局部定式发展出成千上万个，甚至有《定式大全》这样的书。局部数目的手段与技术也不断发展，目数价值精确到几分之一。大局观方面却一直没有太大的进展。甚至一些90后年青高手认为，布局不要太看重，花时间想也想不出什么东西，随便搞搞套路或者下一些过得去的着手应付下，大量时间要留在中后盘决战。

从实战来说，这也确实是胜率较高的选择，你脱离套路未必占优，就算花大量时间琢磨布局选点便宜了两三目，后面时间不够了随时崩盘，因为人家后面肯定会来“搅”。孟泰龄主要的获胜方式，就是利用一些年青棋手忽视布局这个特点，他精心研究布局，多次在局面判断中取得优势，后面拼了老命把优势守下来。但是由于年青高手们冲击实在太厉害，往往顶不住，泰哥也无法取得战绩的突破，只能维持住一流高手的地位。

职业棋手面临着训练内容与方法的革命

职业棋手们水平取得突破，也和一些围棋道场的严格军事化训练手段分不开。冲段小棋手们做海量的死活题，认真进行大量的对局，严谨计算的态度与人脑中“策略网络”的质量都不错。死活题有上千年的历史积累，多年的实战提供了大量素材，还有不少高手喜欢创作死活题。日本的《发阳论》吸收了中国古代棋书中不少素材，韩国《天龙图》是实战积累。死活题素材不缺，有道场、有网络，高水平实战锻炼的机会不缺，套路相关的信息流传也快，职业棋手群体水平迅速进步。

但是，各道场并没有多少“局面判断”的题目积累，这是一个非常严重的技术性缺失。如果棋手群体有意识地在这方面努力，是有办法可想的。可以集体讨论一些局面，取得一致，拿出来做为习题或者“训练样本”。也可以在网络上组织实战，主动对一些局面统计胜率，获得宝贵的数据，达成一致。可以积累大量网站与实战高水平棋谱，对一些同类开局进行大数据分析。这样的分析程序已经有了，但主要是正式比赛棋谱不够多，如果能和对弈网站联手，增加海量棋谱，局面统计分析就更为精确。

现在有了高水平围棋AI，就更为方便了。高水平围棋AI，以后一定会普及。如果放开AI数据后门，就能看到局面的具体胜率，甚至价值网络对局面的估值。甚至也可以把训练好的价值网络单独抽出来做成小程序帮助分析。这样，应该可以象死活题一样积累出海量的局面判断素材。和以前不一样的是，这些局面判断题有参考答案，或更为权威的答案，并不仅仅是思考题。

职业棋手们可以去盯着这些局面判断题，进行全局思考。为什么这些局面是黑优不是白优？为什么和自己的感觉相反？为什么AI或者统计结论明显，自己却没有感觉？这样仔细琢磨，一定会想出一些道理。琢磨久了，甚至作出判断的速度都会加快。AI的策略网络和价值网络的神经网络是相似的，人类既然能够有“策略网络”的直觉系统，同样在人脑中训练出“价值网络”应该是可行的。

从人类等级分最高的柯洁的棋艺来看，他可能就有这样的特点。柯洁的算路并不是最深的，数目也不是最强，也不是妙手一堆，当然这些都不弱。柯洁自称最强的是判断，有时直接判断不用数目就知道是亏了还是赚了，是通过4000多盘网棋成长起来的。很可能柯洁在数千盘对战中不自觉地注意了对脑中“价值网络”的训练，形成了自己领先其余高手的局面判断能力。这些棋手与棋迷认为，柯洁是下得最象AI的棋手。

职业棋手群体可以把这个过程工程化，主动收集有教育意义的反直觉局面，棋手们主动接受类似机器学习的“人脑学习”训练，形成直觉一样的局面判断能力。在高水平AI的帮助下，这个过程应该可以迅速缩短，不用非常辛苦地积累素材。对各个道场的培训水平而言，局面判断素材以及使用AI帮助训练的能力，会成为重要因素。国际象棋AI早就这样帮助人类棋手训练了。

这种局面判断，天生就是全局的。这将使人类高手的围棋思维，从之前的局部定式、局部数目、局部战斗，飞跃进步到全局判断、全局战斗，这将是吴清源大师穷毕生之力思索并力推的“21世纪围棋”、“六合围棋”时代。吴清源2014年去世了，没有看到围棋AI的革命性进展。但是在围棋AI的帮助下，这个时代将不可避免的到来，人类高手围棋水平将再次取得突破性进展。

而对于Master这样的围棋AI，也不要过于恐惧。它的秘密武器就是以价值网络为基础的全局思维，新手不断，明快取舍。AI的价值网络是基于全局的，所以全局配置稍有不同，它的着手就会发生变化，远远的几个散子人类看不到什么，AI却能考虑到下出新手。

人类高手30秒计算时间过短，碰到的又是完全不同的棋路需要计算，自然容易出错被狠狠打击。甚至有些着手，人类高手们“不知道AI是什么意思”，过了一些招数才发现吃大亏了。有些上阵的高手甚至由于恐惧，对自己失去信心，明显技术变形，早早就大败了。

人类由于生理条件的限制，需要更多的思考时间。从探索围棋技艺的角度，要求更多思考时间是合理的。如果在布局与中盘战斗中领先或者顶住了，收官时因时间紧张出小错败北，这并不可怕。但是人类必须在布局方向选择、接触战的局面判断中更多地引入全局思维，接近AI的水平，才有机会顶住。

AI由于MCTS算法天生的弱点，很大可能仍然是有缺陷的，太复杂的局面会出现算路问题，或者局部死活出现漏算，而这是人类的优势。人类的语言逻辑推理能力，局部严密算路是有优势的！对于复杂局面，人类可以总结归纳主要矛盾，设计出组合手段，推理出可行次序。而AI由于MCTS的框架特性，什么都要算到终局，不可能什么都模拟到，大量算力浪费在非关键的逻辑里，发生漏算是可能的。当然前提是人类高手需要顶住，不能让AI随便就领先10几20目，那AI可以简明地控制局面，对手毫无机会。

如果人类高手能够学习价值网络的全局思维主动训练，取得棋艺的飞跃进步，再给以足够的思考时间，和AlphaGo以及其它水平不断进步的高水平AI对战还是有胜机的，而这对围棋发展的意义极为重大。Deepmind开发出AlphaGo这样的革命性围棋程序，将确定无疑地引领围棋艺术再一次的飞跃进步，人类棋手也会获益非浅。

本文系观察者网独家稿件，文章内容纯属作者个人观点，不代表平台观点，未经授权，不得转载，否则将追究法律责任。关注观察者网微信guanchacn，每日阅读趣味文章。

首页上一页 1 2 3 余下全文
标签围棋 AlphaGo 人工智能算法科技
- 请支持独立网站，转发请注明本文链接：
- 责任编辑:武守哲
搜索

   观察者头条查看全部

国际刑事法院忍无可忍：再威胁试试评论 170

省级督察组现场核实情况，遭故意封路阻挠评论 131

嫦娥六号成功发射！开启人类首次月球背面取样之旅评论 339

“美军还没撤，俄军就把这里占了” 评论 224

土耳其暂停与以色列所有贸易评论 141

   风闻 · 24小时最热查看全部

   最新视频查看全部
最新闻 Hot
快讯

陈经：被围棋AI横扫后，职业棋手应该如何提高水平？

国际刑事法院忍无可忍：再威胁试试

澳大利亚“设卡”，中国在非洲淘到“白金”

“半数以上AI最热门领域，中国研究领先”

省级督察组现场核实情况，遭故意封路阻挠

美国又出新规：想要补贴，电动汽车上不能有“中国制造”

“中俄在台海附近军演，逼着美国改计划”

他催拜登采取行动：保住内塔尼亚胡，不然逮捕令会落到咱们身上

以代表称：没料到美国精英大学里也有哈马斯

“内塔尼亚胡决心竞选连任”

香港暴徒“屠龙小队”队长：计划使用炸弹杀害港警，至少30个

“美国各地逾2000名抗议者被捕”

“欧盟得把成年男性遣返乌克兰，上战场”

“这样拆掉中国设备，许多农村就没网了”

果然，印度和日本破防了

“美军还没撤，俄军就把这里占了”

“北约发这种提案，简直疯了”