-
陈经:Deepmind这次搞定国际象棋,只用了四个小时
关键字: 人工智能DeepmindAlphaZero围棋国际象棋Stockfish【文/ 观察者网专栏作者 陈经】
2017年12月6号,Deepmind扔出了一篇论文《Mastering Chess and Shogi by Self-Play with a General Reinenforcement Learning Algorithm》,声称从AlphaGo Zero发展来的新程序AlphaZero又零基础自学,只用4个小时和2个小时就胜过了国际象棋和日本将棋的最强程序。加上之前在围棋上的进展,这其实等于是说,世界上所有知名棋类都可以用一个架构轻松碾压过去的高手,不管是人还是程序。
这篇文章正在被审核,按Deepmind过去的风格有可能还是投到《自然》去。但这回Deepmind不保密了,直接在arxiv.org公布了全文。前两篇围棋AI的文章由于投出来之后有人机大战,是需要保密。
这篇文章在围棋上,用训练34小时的AlphaZero和训练72小时的AlphaGo Zero相比,100盘60:40。这个结果并不令人吃惊,就是训练速度快了,说明新的方法有提升,其实网络架构训练方法和AlphaGo Zero的差不太多,是一些小改进。围棋界对这篇文章应该反应不大,新东西不多,早就被震惊好几次了。
AlphaZero在日本将棋上训练2小时就超过最强程序Elmo。日本将棋和中国象棋、国际象棋差不多,也是各兵种吃对方的王。但是最大的不同是吃掉对方的棋子可以变成本方的棋子,放回棋盘任意位置,这使得对局攻杀极为激烈,和局很少,变化比国际象棋要多不少。中国象棋的理论局面数量超过国际象棋,但由于大量局面类似,高手们一般认为实际变化复杂程度比国象要少。
由于日本将棋更为复杂(以及研究人员关注的少),直到2017年冠军程序Elmo才战胜了人类高手。这个Elmo应该实力还比较弱,所以最终被AlphaZero以90胜2和8负战胜了。AlphaZero还会输几局,但这是因为训练时间不长,已经能够说明问题就行了。
真正影响重大的是国际象棋。这次倒不是说AlphaZero怎么碾压了人,人类高手早就被国际象棋AI整得服气了。但是AlphaZero训练4小时就反超了,最终以28胜72和战胜了Stockfish(鳕鱼),其中先行战绩是25胜25和。这个Stockfish在国际象棋界可不是随便搞搞研发的程序,也不仅是2016年国象AI冠军这么简单,它对职业棋手和爱好者们就像是亲人朋友一样,天天在为棋界服务。在chessbomb等网站上,职业棋赛每一步Stockfish都在实时地给出各种变化,爱好者们看棋的方式和以前完全不一样了。高手们训练也非常依赖顶级AI给出的各种提示,有时就像终极答案一样。高手们通过亲身感受,对于Stockfish的实力非常认可。
由于国际象棋最优解极有可能是和棋,所以高手和爱好者一般认为,Stockfish和国际象棋上帝也差不了太多,反正就是和棋。以前两个顶级AI对打(通常是大战100盘),总有90%的是和棋。排名世界前五的美国特级大师中村光就说:就算是上帝先手和Stockfish下,也得75%是和棋。
现在AlphaZero忽然跑出来,先行能以50%的概率战胜Stockfish,这让一些国际象棋高手和爱好者们有些难以接受。我对围棋很熟,AlphaGo对围棋界的冲击可以说是天翻地覆无以伦比。现在轮到国际象棋界来感受新型AI的冲击了,看着一些国外爱好者对AlphaZero的讨论,各种置疑或者不接受,不由得一阵暗爽。
Stockfish和AlphaZero都是机器,不管谁强谁弱,和人都没啥关系,为什么国际象棋界的人要着急?这里有一些算法背景。
(图片来源:chessbase)
上图对弈者为国际象棋排名前两位的卡尔森与卡鲁亚纳,围观者左为卡斯帕罗夫,右为哈萨比斯。哈萨比斯本人是国际象棋职业选手,青少年时排名仅次于天才少女小波尔加,他的“一个框架解决一切棋类问题”的思想这次实现了。
Stockfish是机器,但是里面的算法是人们一步步看着发展过来的,程序员写了很多代码,每年都在不断升级,还有国际象棋大师出主意。棋界和计算机学界一起努力,才达到了非常高的水平,那一行行代码都开源在那,还有规模极大的开局库、残局库放在那帮着简化搜索。这都是业界的心血,那些精巧的alpha-beta搜索、剪枝算法、高效实现,各种知识库,有多少人的聪明才智在里面。业界其实对以Stockfish为代表的国际象棋AI比较满意,开发出来的程序又帮助棋手们涨棋,促进了国际象棋界的繁荣,职业棋手数量和水平都大大增加。
各种AI们自己在那对战,Stockfish前几天就正在和Komodo大战。但棋迷和高手们主要还是对人类对局有兴趣。这个局面是不错的,AI们自己玩,玩出东西来帮助人涨棋以及评化棋局,人不和AI较劲。
但是现在AlphaZero等于是说,人类之前开发AI的所谓“心血”都是没意义的白忙活。弄好一个resnet神经网络结构,把国际象棋基本规则做好了,来5000个一代TPU对局生成样本,再来64个二代TPU训练,过4小时就行了。
人类大师1000多年发掘的象棋精妙知识不需要,算法大师构造的精妙剪枝搜索不需要,也不要任何开局库残局库。就这么一个结构,还同时可以搞定围棋、日本将棋、国际象棋,区别只是训练出来的神经网络系数不同。
-
本文仅代表作者个人观点。
- 请支持独立网站,转发请注明本文链接:
- 责任编辑:武守哲
-
“我们美国说要做的事,中国人已经做到了” 评论 27荷兰“拼了”:阿斯麦,别走! 评论 111“嫌犯从乌克兰获大量资金和加密货币,有确凿数据” 评论 332美方对俄隐瞒了部分信息?克宫回应 评论 112最新闻 Hot
-
荷兰“拼了”:阿斯麦,别走!
-
“到处都是中国威胁的夸张想象,美国很久没这样诋毁他国了”
-
美国没援乌,他倒急了:会被中国大陆看到你们的软弱!
-
《经济学人》:欧洲经济遭“三杀”,俄乌冲突、中国、特朗普
-
内塔尼亚胡重大政治危机:犹太教徒或被迫上前线
-
“我们美国人说要做的事,中国人已经做到了”
-
“嫌犯从乌克兰获大量资金和加密货币,有确凿数据”
-
“美正拟中国先进芯片企业黑名单”,驻美大使馆回应
-
“要三思啊,这种民族主义口号将毁掉国家”
-
“如果TikTok被禁,美科技巨头也应该被调查”
-
美方对俄隐瞒了部分信息?克宫回应
-
美主持人问了大家想问不敢问的问题,白宫“震怒”
-
法国叫停安理会会议,扎哈罗娃怒斥:做贼心虚
-
中国在全球率先商用5.5G,首批百城名单公布
-
这条中马“一带一路”重点铁路项目 “或延伸至泰国”
-
印度强烈抗议美国:民主国家不能这样
-