-
陈经:Deepmind与暴雪开源接口,人工智能挑战星际争霸到哪一步了?
关键字: deepmind暴雪公司人工智能星际争霸AlphaGo绝艺神经网络架构这说明,从0知识开始训练,改变神经网络结构玩游戏这个方法,只能解决有限的一些小游戏。对星际争霸这种复杂的策略游戏,纯自学连简单任务都做不好,更不要说和人对打,连最弱的内置AI也打不过。星际争霸操作类型很多,单一动作与最终回报因果关系不明,多种操作为了全局战略服务,机器从0开始自我学习很可能是走不通的,领会不到游戏的精要之处。
AlphaGo之前有一个很有意思的计划,从0知识开始自我学习出一个不受人类棋谱“污染”的围棋AI,如果能训练出来,这个AI会如何下棋非常有意思。
但可以猜测这个计划不成功,五月与柯洁的人机大战中没有提到。这种AI从随机乱下开始训练,可能陷入了某种瓶颈中出不来了,就如“生产士兵”小游戏一样,没有办法达到较高水平。人类高手的棋谱是有意义的,每一招即使不是最佳选择也很有逻辑,让AlphaGo的行棋选择有了逻辑基础,在这个基础上AlphaGo再深入地判断几个选择的好坏。
如果没有人类提供初始基础,AlphaGo自我训练很可能“Garbage in, Garbage out”无法持续提升。就象有些小孩很聪明也很努力学习,但如果没有明师指点学习方向,也不知道如何发挥聪明才智。
Deepmind这次也尝试了向人类学习如何打星际。AlphaGo有两个神经网络,分别是用于预测棋手选择的“策略网络”,以及预测局面胜负的“价值网络”。Deepmind也用人类星际争霸2的对战回放(replay)训练了两个网络,一个是“策略网络”用来学习在当前局面下人会怎么操作,一个“价值网络”用来预测当前谁胜谁负。
理论上来说,可以用这两个网络让AI来打星际,选择一个获胜概率大的操作来执行。用这种办法,Deepmind在“生产士兵”小游戏上有了突破,比之前的自学习方法多生产了不少人族士兵(应该还是不如人类玩家)。用“策略网络”与暴雪内置AI对打,也比之前的表现“好多了”。
之前根本就不能叫对打,最多只是自己的建筑飘起来逃跑,而向人类选手学习操作之后,AI能以较高的概率造出战斗部队了(这需要多个步骤,对AI并不简单,也有一定概率造不出来),甚至平均能造出七八个兵(在被消灭之前)。总的来说,神经网络学习人类操作以后,AI可以有一定机会摸到“造兵反抗”的正确方向,好过之前的“束手无策”或者“逃跑主义”,但也不太像是有主意的样子。
不管是从0开始自己玩学习,还是向人类选手学习操作,Deepmind的星际争霸AI最大的麻烦是,不知道自己要干什么。AlphaGo知道自己要优化每一步的胜率,它明确知道自己要干什么,一直这么做就能击败最强的人类选手。而星际争霸不是这样,开局AI需要多生产矿,然后要改变目标去造兵营,同时还有一堆不同的事要去做,这些“小目标”和最终获胜的“大目标”是什么关系,AI是很糊涂的。
虽然Deepmind取得的进展令人震惊的小,但要看到,它还是坚持机器学习的战略方向,坚决不用人去写代码解决问题。如果把代码写死,很容易就能写出不错的采矿造兵策略,比暴雪的内置AI强也不难。但这不是Deepmind的思想精髓,而是过去的老办法。Deepmind认为,要让机器具备学习能力,可以给它数据,不停找各种办法教它“学习”,但不能直接下命令让机器怎么做。
为此,Deepmind与暴雪公布了几十万局人类选手在战网的对战录像,并研发了一个对AI研发者很方便的开发环境SC2LE。全球研发者都可以用这些资源去研究星际争霸2的AI了,比过去要方便多了。这个意义不可小视,一个好的研发环境往往能促使大批好的研发成果出来,因为会有更多研发者加入进来(之前因为麻烦做不了)。
Deepmind挑战星际争霸的进展就是这些。对于人类选手的拥护者,这是极好的消息,Deepmind过去成功的机器学习方法,这次看来碰到了很厚的墙,短时间内应该不可能有星际争霸AI象AlphaGo那样自我对练后忽然跑出来天下无敌。Deepmind应该是感觉到这个项目短期无望,所以将平台开放,希望全球研发者一起来想办法。而之前AlphaGo看到突破的希望后,Deepmind扩大研发团队加强保密,搞了一个哄动全球的大新闻。
可以预计,会有不少星际争霸的机器学习研究进展出来。如更多的迷你游戏类型被尝试,改善神经网络结构向人类学习操作后抵抗时间更长。但这类“小进展”一段时间内只会让人类玩家会心一笑,对AI的能力给个很低评价。如果能通过机器学习的办法打败暴雪的内置AI,对研发者而言都会是极大的进展。真正让业界震动的革命性算法进步不可预期,也许能出来,也许长期出不来,但一定不是现在这些方法的拼凑组合。
其实Deepmind并不是最早开始挑战星际争霸的研究机构,这次提供的研发平台也不是最早的。2009年就有业余开发者做出了BWAPI,是对星际争霸1的。用这个接口,人们就可以开发AI来打星际争霸了。之前是没有办法的,开发者不太可能直接读取屏幕像素去分析各种单元,再操作鼠标键盘点击屏幕,会被界面开发烦死。有了BWAPI,各类星际争霸AI迅速出来不少。
加拿大纽芬兰纪念大学计算机科学系副教授 Dave Churchill(图片来源于网络)
从2010年开始,加拿大纽芬兰纪念大学计算机科学系副教授Dave Churchill等人组织了AIIDE(人工智能与交互式数字娱乐年度会议)星际争霸比赛,这是每年最重要的星际争霸AI赛事之一,取得好名次的AI会与人类选手进行对抗。这些AI的水平肯定超过暴雪的内置AI,如果说与人类选手对战,目前还得靠它们,Deepmind的AI看来一时指望不上。但是这些AI基本是用主动编程实现对战策略,有点象是AlphaGo出现之前围棋AI的格局。
-
本文仅代表作者个人观点。
- 请支持独立网站,转发请注明本文链接:
- 责任编辑:武守哲
-
外交部回应布林肯:中方从来没有兴趣,不要疑神疑鬼 评论 196护栏被冲破!美国校园两派“开打” 评论 338加沙孩子感谢美国“挺巴”大学生:请继续支持我们! 评论 121李强:大力发展智能网联新能源汽车 评论 93“西方媒体,看清你们了!”拜登“走后门”也没躲过 评论 169最新闻 Hot
-
“不去管枪支医保教育,却禁掉我谋生工具,这就是我的国家”
-
“绝大多数美国人都已感到厌恶,这不是反犹是现实”
-
“美日想抢在中国前面登月,害怕中国人太自豪……”
-
护栏被冲破!美国校园两派“开打”
-
“同性恋最高可判15年”,伊拉克新法律被美英围攻
-
乌军总司令:前线局势正在恶化,俄军取得局部胜利
-
美7旬犹太裔总统候选人,也没幸免…
-
国际刑事法院将发逮捕令?“内塔尼亚胡怕了,不停打电话给拜登”
-
韩机构着急:在华韩货价格不如中国,质量不及日本
-
“我仿佛置身战区”
-
“继加沙后,以军还会把我们赶出约旦河西岸”
-
加沙孩子感谢美国“挺巴”大学生:请继续支持我们!
-
“哈马斯代表团将前往开罗,参加停火谈判”
-
“西方媒体,看清你们了!”拜登“走后门”也没躲过
-
马斯克抵京
-
“中国保持主导地位,美国第二”
-