陈经：Deepmind这次搞定国际象棋，只用了四个小时

APP下载

扫一扫

下载观察者APP

陈经：Deepmind这次搞定国际象棋，只用了四个小时
- 陈经风云学会会员，《中国的官办经济》
分享到：

2017-12-12 07:59:43 字号：A- A A+ 来源：观察者网

关键字: 人工智能DeepmindAlphaZero围棋国际象棋Stockfish

这种机器暴力征服，围棋AI界的人还是比较服气和欣赏的，说算法优美简单。可能是因为以前开发围棋AI的人也没写出什么好的搜索算法，各种搜索代码写得心烦意乱，明知一堆缺陷也勉强推出来被人类高手低手嘲笑。

老办法搞不定围棋，机器暴力搞定了，是很好的事。但国际象棋不一样了，业界好不容易各种精巧的代码折腾，精心添加维护开局库残局库，感觉摸到国际象棋真理的边了，忽然一下被机器暴力4小时否定了，难道过去的事真的是没有意义的？

因此一些棋迷和高手质疑AlphaZero这个结果，对Stockfish更有感情，是可以理解的。一种质疑是，你AlphaZero背后财大气粗，机器厉害，是不是让Stockfish运行在弱机上，不公平啊？有棋迷就声称，我还能战胜初代stockfish呢，Deepmind到底怎么试的？为什么每步只让Stockfish思考一分钟？但是按论文的数据，测试的Stockfish有64个线程，每秒能搜索7000万个局面，这机器并不弱。

另一种质疑就专业一些，如中村光说，Stockfish并不是一个简单的程序，需要配上合适的开局库残局库。Deepmind是不是配错了开局库，让Stockfish没有发挥最佳实力？怪不得AlphaZero先行能25胜，Stockfish没有好的开局库吃这么大亏才输成这样的。这种质疑比较专业，因为国际象棋开局变化要比中盘、后期复杂得多，AI也不可能搜索清楚。

业界的解决办法是，搞一个庞大的开局库，通过实战对局或者测试中发现不对劲，就放到开局库里免得Stockfish掉到沟里去。而且不同配置的机器对应的开局库是不同的，强机能走的开局，弱机不一定抗得住。这个Deepmind论文里说得是有些不清楚。

特级大师考夫曼是帮助Komodo开发的专家，对AI很了解，他也有类似意见。考夫曼认为，现在说“AlphaZero这种暴力训练的引擎比基于min-max搜索的传统算法强”还为时过早。AlphaZero这么训练，相当于自带了最合适的开局库，公平的比试应该让Stockfish配上最合适的开局库。

对国际象棋不熟的人可能会说，Stockfish这不是还不错么，AlphaZero等级分和它也差不多，而且好像高不上去了。等级分高不上去，主要是因为太多和棋弄的，等级分系统认为分差大获胜概率就得很高，老和就说明你两水平差不多。对人类高手确实如此，人类和stockfish下基本是输，等级分差距很大。但是在极高的水平上，就不能看等级分了，要看输棋。

有经验的高手们认为，国际象棋特别容易和棋，正常走就是和棋，大比例的就应该和棋，就算走得稍不精确也能和，容错犯围比较大。只有说走多了，才偶尔掉进坑里算不清楚输掉。

卡斯帕罗夫和卡尔波夫争霸时曾经连和26局，两人都快折腾死了，卡尔波夫虽然胜局2:0领先，但是已经下崩溃了。

现在Stockfish在后走的50局里输掉一半，不太正常，掉坑概率过高，感觉像是开局库吃大亏。下到中后盘，Stockfish那每秒7000万步的搜索不是开玩笑的，如果有和棋的路线，不太可能输。

一些国象高手们对Deepmind应用Stockfish细节的质疑，似乎也有道理。但不管怎么说，就算Stockfish真是因为没有好开局库输大了，它总得依赖好几个G的宠大开局库，而且还得不停更新维护达到高水平，这看上去不是正路。这等于是说，吃了亏，就把吃亏算不清的地方用开局库补足。

这看上去很像腾讯的围棋AI绝艺之前挣扎的开发阶段，老是出死活bug，就去人工修，修来修去似乎是出错概率小了，但总修不干净。棋下得也不太自然，解说人类对局的时候也经常给出不靠谱结论。后来腾讯参考AlphaGo Zero的新版本“符合预期”就很好了，行棋自然，不出死活Bug，对人类高手也是60连胜，还让二子胜了绝艺。

符合预期这个版本2017年12月9日10日参加了在日本举办的龙星杯世界围棋AI赛，预赛决赛两次战胜最强对手DeepZenGo夺冠。但是绝艺预赛中对一个弱程序Maru输了一局，终局已经大胜了，但因为是用中国规则开发的，对日本规则没有准备，对手不断Pass，绝艺却自填了很多目填输了。比赛中多个中韩程序都因为日本规则中招了，自填负、自填超时负、终局死机负，状况不断。

从开发思想看，其实很清楚。Stockfish等之前的“顶级”国际象棋AI，是用精确搜索的思想开发的，各种细节都做到极致，人工编写的局面估值函数极尽精巧，算法剪枝操作研究极深，代码量不小。如果搜索不行，就加开局库、残局库补足弱点。这是传统的人工代码开发的思想，其实搜索本身是暴力倾向的，开发目标就是尽可能多搜增强实力，标志性指标之一就是一秒能搜多少个局面。

而AlphaZero的开发思想特别简单。人简直是太轻松了，给出网络结构，实现下棋规则，搞出强化学习方法，配上足够的学习和训练的机器就行了。一切都是机器自己学出来的，人没有什么事。而且学完后下棋，一些棋迷评论说AlphaZero下得混然天成，非常自然，人容易理解，没有什么开局库的生搬硬套，一切都在神经网络系数里。Stockfish倒是下得像机器，有些招法不知道怎么蹦出来的，人理解不了。

AlphaZero下国际象棋的时候，每秒只要搜索8万个局面就够了，个个变化图都很有意义。这反过来说明Stockfish每秒7000万个局面，双方对局时一分钟一步，那几十亿的局面绝大多数都没啥意义浪费了，还有漏算。

国际象棋AI超级决赛（TCEC Season 10 SuperFinal ），第97场Komodo执白负于Houdini

首页上一页 1 2 3 下一页余下全文
标签 AlphaGo 围棋象棋人工智能算法计算思考机器
- 请支持独立网站，转发请注明本文链接：
- 责任编辑:武守哲
搜索

   观察者头条查看全部

护栏被冲破！美国校园两派“开打” 评论 191

加沙孩子感谢美国“挺巴”大学生：请继续支持我们！评论 99

李强：大力发展智能网联新能源汽车评论 90

“西方媒体，看清你们了！”拜登“走后门”也没躲过评论 160

“TikTok只是烟雾弹，美情报机构才无时无刻不在…” 评论 156

   风闻 · 24小时最热查看全部

   最新视频查看全部
最新闻 Hot
快讯

陈经：Deepmind这次搞定国际象棋，只用了四个小时

护栏被冲破！美国校园两派“开打”

美7旬犹太裔总统候选人，也没幸免…

国际刑事法院将发逮捕令？“内塔尼亚胡怕了，不停打电话给拜登”

韩机构着急：在华韩货价格不如中国，质量不及日本

“我仿佛置身战区”

“继加沙后，以军还会把我们赶出约旦河西岸”

加沙孩子感谢美国“挺巴”大学生：请继续支持我们！

“哈马斯代表团将前往开罗，参加停火谈判”

“西方媒体，看清你们了！”拜登“走后门”也没躲过

马斯克抵京

“中国保持主导地位，美国第二”

“TikTok只是烟雾弹，美情报机构才无时无刻不在…”

言而无信！菲防长不承认了

今年首例暴雷！美国又一地区性银行倒闭

哈马斯发布人质视频

“担心影响经济复苏，德国或不针对中国加大投资审查”