-
陈经:被围棋AI横扫后,职业棋手应该如何提高水平?
关键字: 围棋AI柯洁MasterAlphaGo谷歌人工智能价值网络算法中韩高手们集体实战验证套路的办法,其实暗合了AlphaGo强化学习生成价值网络的方法。AlphaGo会进行几千万次的高质量“自我对局”,比高手们的对局加起来都多得多。人类高手们反复实战能判断几十个局面都不容易,AlphaGo的训练流水线却能生成几千万个局面,用于价值网络的训练。
价值网络是个和策略网络结构相似的多层神经网络,但是里面的系数不一样,它能对一个静态局面不搜索直接给出胜率,判断谁占优。有了策略网络与价值网络,AlphaGo不需要搜索都可以下得很好了,对每一招策略网络提供的选点,价值网络给出胜率判断,选择最好的一个选点下就可以了。2016年中Deepmind说AlphaGo棋力取得突破,就特别说了价值网络取得了巨大的进步。
价值网络是人类思考中没有的,在谷歌论文之前甚至没有这个概念。从学术角度来说,这可能是谷歌论文最大的贡献,深度学习生成策略网略并非Deepmind最先提出的。虽然对人类来说有点不自然,但价值网络正是人类可以学习的地方,职业高手们也许能从这个方向上取得棋力的突破,但需要科学的方法。
人类能通过多次实战、打谱,在脑中形成直觉,看一眼局面就能根据棋形产生一些靠谱的候选点。对人类直觉方便之处在于,候选点有“局部性”,人只要看局部就能有“关键”点的直觉。有时一些照顾全局的棋招会被夸张地称为“耳赤妙手”。人类自然倾向就是局部观察,眼睛看画面时自然会聚焦在一小块地方,棋手思维也是如此。高手要逆着这个直觉观察全局,多找一些候选点。范西屏是中国古代水平最高的棋手之一,李步青对其它人这样形容他的棋艺:“君等于弈只一面,余尚有两面,若西屏先生则四面受敌者也”,这是说范西屏全局观念特别强。
但这种全局观念毕竟难于描述,成了高手中只可意会不可言传的“大局观”。人类对局部的精确描述却不断取得进展,局部定式发展出成千上万个,甚至有《定式大全》这样的书。局部数目的手段与技术也不断发展,目数价值精确到几分之一。大局观方面却一直没有太大的进展。甚至一些90后年青高手认为,布局不要太看重,花时间想也想不出什么东西,随便搞搞套路或者下一些过得去的着手应付下,大量时间要留在中后盘决战。
从实战来说,这也确实是胜率较高的选择,你脱离套路未必占优,就算花大量时间琢磨布局选点便宜了两三目,后面时间不够了随时崩盘,因为人家后面肯定会来“搅”。孟泰龄主要的获胜方式,就是利用一些年青棋手忽视布局这个特点,他精心研究布局,多次在局面判断中取得优势,后面拼了老命把优势守下来。但是由于年青高手们冲击实在太厉害,往往顶不住,泰哥也无法取得战绩的突破,只能维持住一流高手的地位。
职业棋手面临着训练内容与方法的革命
职业棋手们水平取得突破,也和一些围棋道场的严格军事化训练手段分不开。冲段小棋手们做海量的死活题,认真进行大量的对局,严谨计算的态度与人脑中“策略网络”的质量都不错。死活题有上千年的历史积累,多年的实战提供了大量素材,还有不少高手喜欢创作死活题。日本的《发阳论》吸收了中国古代棋书中不少素材,韩国《天龙图》是实战积累。死活题素材不缺,有道场、有网络,高水平实战锻炼的机会不缺,套路相关的信息流传也快,职业棋手群体水平迅速进步。
但是,各道场并没有多少“局面判断”的题目积累,这是一个非常严重的技术性缺失。如果棋手群体有意识地在这方面努力,是有办法可想的。可以集体讨论一些局面,取得一致,拿出来做为习题或者“训练样本”。也可以在网络上组织实战,主动对一些局面统计胜率,获得宝贵的数据,达成一致。可以积累大量网站与实战高水平棋谱,对一些同类开局进行大数据分析。这样的分析程序已经有了,但主要是正式比赛棋谱不够多,如果能和对弈网站联手,增加海量棋谱,局面统计分析就更为精确。
现在有了高水平围棋AI,就更为方便了。高水平围棋AI,以后一定会普及。如果放开AI数据后门,就能看到局面的具体胜率,甚至价值网络对局面的估值。甚至也可以把训练好的价值网络单独抽出来做成小程序帮助分析。这样,应该可以象死活题一样积累出海量的局面判断素材。和以前不一样的是,这些局面判断题有参考答案,或更为权威的答案,并不仅仅是思考题。
职业棋手们可以去盯着这些局面判断题,进行全局思考。为什么这些局面是黑优不是白优?为什么和自己的感觉相反?为什么AI或者统计结论明显,自己却没有感觉?这样仔细琢磨,一定会想出一些道理。琢磨久了,甚至作出判断的速度都会加快。AI的策略网络和价值网络的神经网络是相似的,人类既然能够有“策略网络”的直觉系统,同样在人脑中训练出“价值网络”应该是可行的。
从人类等级分最高的柯洁的棋艺来看,他可能就有这样的特点。柯洁的算路并不是最深的,数目也不是最强,也不是妙手一堆,当然这些都不弱。柯洁自称最强的是判断,有时直接判断不用数目就知道是亏了还是赚了,是通过4000多盘网棋成长起来的。很可能柯洁在数千盘对战中不自觉地注意了对脑中“价值网络”的训练,形成了自己领先其余高手的局面判断能力。这些棋手与棋迷认为,柯洁是下得最象AI的棋手。
职业棋手群体可以把这个过程工程化,主动收集有教育意义的反直觉局面,棋手们主动接受类似机器学习的“人脑学习”训练,形成直觉一样的局面判断能力。在高水平AI的帮助下,这个过程应该可以迅速缩短,不用非常辛苦地积累素材。对各个道场的培训水平而言,局面判断素材以及使用AI帮助训练的能力,会成为重要因素。国际象棋AI早就这样帮助人类棋手训练了。
这种局面判断,天生就是全局的。这将使人类高手的围棋思维,从之前的局部定式、局部数目、局部战斗,飞跃进步到全局判断、全局战斗,这将是吴清源大师穷毕生之力思索并力推的“21世纪围棋”、“六合围棋”时代。吴清源2014年去世了,没有看到围棋AI的革命性进展。但是在围棋AI的帮助下,这个时代将不可避免的到来,人类高手围棋水平将再次取得突破性进展。
而对于Master这样的围棋AI,也不要过于恐惧。它的秘密武器就是以价值网络为基础的全局思维,新手不断,明快取舍。AI的价值网络是基于全局的,所以全局配置稍有不同,它的着手就会发生变化,远远的几个散子人类看不到什么,AI却能考虑到下出新手。
人类高手30秒计算时间过短,碰到的又是完全不同的棋路需要计算,自然容易出错被狠狠打击。甚至有些着手,人类高手们“不知道AI是什么意思”,过了一些招数才发现吃大亏了。有些上阵的高手甚至由于恐惧,对自己失去信心,明显技术变形,早早就大败了。
人类由于生理条件的限制,需要更多的思考时间。从探索围棋技艺的角度,要求更多思考时间是合理的。如果在布局与中盘战斗中领先或者顶住了,收官时因时间紧张出小错败北,这并不可怕。但是人类必须在布局方向选择、接触战的局面判断中更多地引入全局思维,接近AI的水平,才有机会顶住。
AI由于MCTS算法天生的弱点,很大可能仍然是有缺陷的,太复杂的局面会出现算路问题,或者局部死活出现漏算,而这是人类的优势。人类的语言逻辑推理能力,局部严密算路是有优势的!对于复杂局面,人类可以总结归纳主要矛盾,设计出组合手段,推理出可行次序。而AI由于MCTS的框架特性,什么都要算到终局,不可能什么都模拟到,大量算力浪费在非关键的逻辑里,发生漏算是可能的。当然前提是人类高手需要顶住,不能让AI随便就领先10几20目,那AI可以简明地控制局面,对手毫无机会。
如果人类高手能够学习价值网络的全局思维主动训练,取得棋艺的飞跃进步,再给以足够的思考时间,和AlphaGo以及其它水平不断进步的高水平AI对战还是有胜机的,而这对围棋发展的意义极为重大。Deepmind开发出AlphaGo这样的革命性围棋程序,将确定无疑地引领围棋艺术再一次的飞跃进步,人类棋手也会获益非浅。
本文系观察者网独家稿件,文章内容纯属作者个人观点,不代表平台观点,未经授权,不得转载,否则将追究法律责任。关注观察者网微信guanchacn,每日阅读趣味文章。
-
本文仅代表作者个人观点。
- 请支持独立网站,转发请注明本文链接:
- 责任编辑:武守哲
-
国际刑事法院忍无可忍:再威胁试试 评论 170省级督察组现场核实情况,遭故意封路阻挠 评论 131嫦娥六号成功发射!开启人类首次月球背面取样之旅 评论 339“美军还没撤,俄军就把这里占了” 评论 224土耳其暂停与以色列所有贸易 评论 141最新闻 Hot
-
国际刑事法院忍无可忍:再威胁试试
-
澳大利亚“设卡”,中国在非洲淘到“白金”
-
“半数以上AI最热门领域,中国研究领先”
-
省级督察组现场核实情况,遭故意封路阻挠
-
美国又出新规:想要补贴,电动汽车上不能有“中国制造”
-
“中俄在台海附近军演,逼着美国改计划”
-
他催拜登采取行动:保住内塔尼亚胡,不然逮捕令会落到咱们身上
-
以代表称:没料到美国精英大学里也有哈马斯
-
“内塔尼亚胡决心竞选连任”
-
香港暴徒“屠龙小队”队长:计划使用炸弹杀害港警,至少30个
-
“美国各地逾2000名抗议者被捕”
-
“欧盟得把成年男性遣返乌克兰,上战场”
-
“这样拆掉中国设备,许多农村就没网了”
-
果然,印度和日本破防了
-
“美军还没撤,俄军就把这里占了”
-
“北约发这种提案,简直疯了”
-