-
陈经:Deepmind这次搞定国际象棋,只用了四个小时
关键字: 人工智能DeepmindAlphaZero围棋国际象棋Stockfish从算法意义来说,AlphaZero下得更像人。AlphaZero是用MCTS来搜索的,不是精确的,有概率随机因素,是随机选择一些高概率的分枝进行搜索,低概率的分枝根本不浪费算力去碰。之前人们评论说,这不象人,人不可能这么下棋。这主要指的是MCTS用在围棋上,有一个下完数子的rollout用来代替代码写不好的局面估值,这确实不象人。
但是AlphaGo Zero已经把rollout取消了,直接用深度神经网络来进行估值。这样AlphaZero下棋其实更像人的思路,找直觉最想下的点往下推,再找其它也看着靠谱的点也试试。只不过AlphaZero比起人来还是特别能算,一秒能算8万个局面(人类高手每步一般考虑10个局面)。但是与Stockfish相比,AlphaZero这还是人的思考方式,Stockfish等于在那一秒7000万个局面疯狂分枝扩展,各种不靠谱的分枝占据了大量算力,真正有效的搜索没有太多,借着机器的暴力才搞定了人。
这就是机器学习算法界之前争议的,博弈算法“MCTS+神经网络”是更先进的框架。之前Deepmind有人简单地把“MCTS+神经网络”用在国际象棋上,只是大师的水平,达不到顶级AI的水平。有不少人认为,也许“MCTS+神经网络”这个套路只是对围棋这种简单规则的管用。国际象棋规则复杂,MCTS不够“精确”,还是人类程序员精心编制的确定性算法更管用。这次Deepmind新论文应该给出结论了,“MCTS+神经网络”就是先进生产力的代表。
哈萨比斯评论说,AlphaZero下国际象棋的时候,最革命性的一点是,它没有棋子的概念。在AlphaZero看来,只有整体局势才是它关心的,这相当于国际象棋理论对“position”的重视。但无论是人类高手还是过于的顶级AI,再怎么也是以棋子实力评估为基础的,被吃了大子会心疼,在这个基础上再去进行“重视中央”之类的局面评估理论。
而AlphaZero却完全对棋子没有概念,只要它认为未来整体局势好,弃子根本不叫事。所以哈萨比斯说,从棋艺理论来说,AlphaZero既不是人的下法,也不是机器的下法,它是自己创新了一个下法。
这次Deepmind公布了AlphaZero对Stockfish的十局胜局棋谱,可以这个链接中动态查看。
从棋谱中看,AlphaZero很善于弃子。人类或者机器也弃子,但多半有明确目的,弃了子立刻能吃回或者做杀入局。但AlphaZero经常早早放弃子力,在多步以后才建立优势,这个能力是令人震惊的。
如第十局AlphaZero执白对Stockfish,到36步这个局势黑多兵,而且还多一个马,粗看上去应该是黑大优。但实际上白棋进入了必胜局势,黑为了救命,只能用车后换白的后,白方车对马优势很大可以把黑的兵扫光。而AlphaZero第18步就把马弃了,这么多步以后人们才明白它在干什么。
AlphaZero刚出来,国际象棋高手们还在接受中,但方向应该是明确的。机器学习代表了一大类问题的未来,人类精心设计的算法,不如机器暴力自学习。和之前的围棋相比,这次的国际象棋和日本将棋进一步打开了想象力。也许以后,机器就自己学会编程了,因为编程其实就是实现一些明确的目标。
本文系观察者网独家稿件,文章内容纯属作者个人观点,不代表平台观点,未经授权,不得转载,否则将追究法律责任。关注观察者网微信guanchacn,每日阅读趣味文章。-
本文仅代表作者个人观点。
- 请支持独立网站,转发请注明本文链接:
- 责任编辑:武守哲
-
最新闻 Hot