-
陈经:Deepmind这次搞定国际象棋,只用了四个小时
关键字: 人工智能DeepmindAlphaZero围棋国际象棋Stockfish这种机器暴力征服,围棋AI界的人还是比较服气和欣赏的,说算法优美简单。可能是因为以前开发围棋AI的人也没写出什么好的搜索算法,各种搜索代码写得心烦意乱,明知一堆缺陷也勉强推出来被人类高手低手嘲笑。
老办法搞不定围棋,机器暴力搞定了,是很好的事。但国际象棋不一样了,业界好不容易各种精巧的代码折腾,精心添加维护开局库残局库,感觉摸到国际象棋真理的边了,忽然一下被机器暴力4小时否定了,难道过去的事真的是没有意义的?
因此一些棋迷和高手质疑AlphaZero这个结果,对Stockfish更有感情,是可以理解的。一种质疑是,你AlphaZero背后财大气粗,机器厉害,是不是让Stockfish运行在弱机上,不公平啊?有棋迷就声称,我还能战胜初代stockfish呢,Deepmind到底怎么试的?为什么每步只让Stockfish思考一分钟?但是按论文的数据,测试的Stockfish有64个线程,每秒能搜索7000万个局面,这机器并不弱。
另一种质疑就专业一些,如中村光说,Stockfish并不是一个简单的程序,需要配上合适的开局库残局库。Deepmind是不是配错了开局库,让Stockfish没有发挥最佳实力?怪不得AlphaZero先行能25胜,Stockfish没有好的开局库吃这么大亏才输成这样的。这种质疑比较专业,因为国际象棋开局变化要比中盘、后期复杂得多,AI也不可能搜索清楚。
业界的解决办法是,搞一个庞大的开局库,通过实战对局或者测试中发现不对劲,就放到开局库里免得Stockfish掉到沟里去。而且不同配置的机器对应的开局库是不同的,强机能走的开局,弱机不一定抗得住。这个Deepmind论文里说得是有些不清楚。
特级大师考夫曼是帮助Komodo开发的专家,对AI很了解,他也有类似意见。考夫曼认为,现在说“AlphaZero这种暴力训练的引擎比基于min-max搜索的传统算法强”还为时过早。AlphaZero这么训练,相当于自带了最合适的开局库,公平的比试应该让Stockfish配上最合适的开局库。
对国际象棋不熟的人可能会说,Stockfish这不是还不错么,AlphaZero等级分和它也差不多,而且好像高不上去了。等级分高不上去,主要是因为太多和棋弄的,等级分系统认为分差大获胜概率就得很高,老和就说明你两水平差不多。对人类高手确实如此,人类和stockfish下基本是输,等级分差距很大。但是在极高的水平上,就不能看等级分了,要看输棋。
有经验的高手们认为,国际象棋特别容易和棋,正常走就是和棋,大比例的就应该和棋,就算走得稍不精确也能和,容错犯围比较大。只有说走多了,才偶尔掉进坑里算不清楚输掉。
卡斯帕罗夫和卡尔波夫争霸时曾经连和26局,两人都快折腾死了,卡尔波夫虽然胜局2:0领先,但是已经下崩溃了。
现在Stockfish在后走的50局里输掉一半,不太正常,掉坑概率过高,感觉像是开局库吃大亏。下到中后盘,Stockfish那每秒7000万步的搜索不是开玩笑的,如果有和棋的路线,不太可能输。
一些国象高手们对Deepmind应用Stockfish细节的质疑,似乎也有道理。但不管怎么说,就算Stockfish真是因为没有好开局库输大了,它总得依赖好几个G的宠大开局库,而且还得不停更新维护达到高水平,这看上去不是正路。这等于是说,吃了亏,就把吃亏算不清的地方用开局库补足。
这看上去很像腾讯的围棋AI绝艺之前挣扎的开发阶段,老是出死活bug,就去人工修,修来修去似乎是出错概率小了,但总修不干净。棋下得也不太自然,解说人类对局的时候也经常给出不靠谱结论。后来腾讯参考AlphaGo Zero的新版本“符合预期”就很好了,行棋自然,不出死活Bug,对人类高手也是60连胜,还让二子胜了绝艺。
符合预期这个版本2017年12月9日10日参加了在日本举办的龙星杯世界围棋AI赛,预赛决赛两次战胜最强对手DeepZenGo夺冠。但是绝艺预赛中对一个弱程序Maru输了一局,终局已经大胜了,但因为是用中国规则开发的,对日本规则没有准备,对手不断Pass,绝艺却自填了很多目填输了。比赛中多个中韩程序都因为日本规则中招了,自填负、自填超时负、终局死机负,状况不断。
从开发思想看,其实很清楚。Stockfish等之前的“顶级”国际象棋AI,是用精确搜索的思想开发的,各种细节都做到极致,人工编写的局面估值函数极尽精巧,算法剪枝操作研究极深,代码量不小。如果搜索不行,就加开局库、残局库补足弱点。这是传统的人工代码开发的思想,其实搜索本身是暴力倾向的,开发目标就是尽可能多搜增强实力,标志性指标之一就是一秒能搜多少个局面。
而AlphaZero的开发思想特别简单。人简直是太轻松了,给出网络结构,实现下棋规则,搞出强化学习方法,配上足够的学习和训练的机器就行了。一切都是机器自己学出来的,人没有什么事。而且学完后下棋,一些棋迷评论说AlphaZero下得混然天成,非常自然,人容易理解,没有什么开局库的生搬硬套,一切都在神经网络系数里。Stockfish倒是下得像机器,有些招法不知道怎么蹦出来的,人理解不了。
AlphaZero下国际象棋的时候,每秒只要搜索8万个局面就够了,个个变化图都很有意义。这反过来说明Stockfish每秒7000万个局面,双方对局时一分钟一步,那几十亿的局面绝大多数都没啥意义浪费了,还有漏算。
国际象棋AI超级决赛(TCEC Season 10 SuperFinal ),第97场Komodo执白负于Houdini
-
本文仅代表作者个人观点。
- 请支持独立网站,转发请注明本文链接:
- 责任编辑:武守哲
-
护栏被冲破!美国校园两派“开打” 评论 191加沙孩子感谢美国“挺巴”大学生:请继续支持我们! 评论 99李强:大力发展智能网联新能源汽车 评论 90“西方媒体,看清你们了!”拜登“走后门”也没躲过 评论 160“TikTok只是烟雾弹,美情报机构才无时无刻不在…” 评论 156最新闻 Hot
-
护栏被冲破!美国校园两派“开打”
-
美7旬犹太裔总统候选人,也没幸免…
-
国际刑事法院将发逮捕令?“内塔尼亚胡怕了,不停打电话给拜登”
-
韩机构着急:在华韩货价格不如中国,质量不及日本
-
“我仿佛置身战区”
-
“继加沙后,以军还会把我们赶出约旦河西岸”
-
加沙孩子感谢美国“挺巴”大学生:请继续支持我们!
-
“哈马斯代表团将前往开罗,参加停火谈判”
-
“西方媒体,看清你们了!”拜登“走后门”也没躲过
-
马斯克抵京
-
“中国保持主导地位,美国第二”
-
“TikTok只是烟雾弹,美情报机构才无时无刻不在…”
-
言而无信!菲防长不承认了
-
今年首例暴雷!美国又一地区性银行倒闭
-
哈马斯发布人质视频
-
“担心影响经济复苏,德国或不针对中国加大投资审查”
-