-
陈经:Deepmind与暴雪开源接口,人工智能挑战星际争霸到哪一步了?
关键字: deepmind暴雪公司人工智能星际争霸AlphaGo绝艺神经网络架构2017年8月10日,Deepmind与暴雪公布了星际争霸2的AI开发接口,合作发了论文《星际争霸2:对强化学习新的挑战》,对这个问题作出了初步的探索。可以看出来,星际争霸的复杂度可能超过了Deepmind的想象,他们的进展并不太大。这也部分揭示了,Deepmind发明的“让机器自己玩游戏不断进步”的流水线开发方法存在一定局限性。同时,这并不是说人工智能就对星际争霸没有办法了,更厉害的学习框架也许可以开发出来,Deepmind与暴雪为此准备了完善的研发环境,意义很大。
Deepmind让AlphaGo不断自我对弈提高棋力,既不去主动写代码告诉机器怎么下棋,也不去干预机器的自我学习过程。主要的开发就是设计好各类机器学习的过程,找到新的训练方法提升效率,这是一个很高明的选择。
AlphaGo算法负责人席尔瓦说,人类棋谱的作用,就是提供一个初始的棋力,之后就再没有人类棋谱输入了,AlphaGo学习自己的棋谱提升棋力。而腾讯的绝艺开发方法不太一样,具备了很高棋力以后积极地与顶尖棋手不断实战测试,发现问题后针对棋谱改代码调试升级。
绝艺的开发方法多少有些急功近利,近期显得无法突破瓶颈,在2017年8月16、17日的首届中信证券杯智能围棋赛中先后负于台湾的CGI与日本的DeepZenGo,出乎预料地连决赛都没有进。
绝艺的失利有偶然性,CGI与DeepZenGo也不是太稳定,夺冠的DeepZenGo预赛中输给了绝艺。这说明高水平围棋AI的开发并不简单,容易进入瓶颈,棋界都在等AlphaGo的新论文公布。
因为这个思想,Deepmind坚持让机器自我学习不断打星际争霸去提升实力,认为这种方法潜力更大。主动去编程让AI具备相当的实力,这样前期进展快,但提升潜力不大。机器的学习有两种,一种是从0知识开始,一种是参考人类的比赛录像。这两种办法,Deepmind都在星际争霸2上进行了实践,那么结果如何?
从0知识开始让AI自我学习是Deepmind的拿手好戏。在开发AlphaGo之前,Deepmind就有一篇2015年的《自然》文章《Human-level control through deep reinforcement learning》,描述如何在“打砖块”等Atari开发的经典小游戏中,从0知识开始自我学习达到超过人类的游戏水平。
开发人员负责给AI定好神经网络结构,AI通过海量试玩,分析游戏结果(如分数)改变神经网络系数提高分数回报。可以猜测,Deepmind希望用海量的自我对战,引导星际争霸AI的神经网络结构去自己发展出越来越复杂的战略与战术,甚至与人类玩家抗衡。
Deepmind也这样对星际争霸2建立了几种神经网络架构,一种训练是用比赛胜负结果作为“回报”去调整网络系数,另一种是用比赛过程中报告的分数(如钱数、农民数、兵的个数)作为回报。训练的对手是暴雪内置的AI,这种AI是用主动编程的方法做出来的,前期如何发展,什么时候对玩家发动一波进攻都是写好的。它的目的是让玩家学习操作,玩得开心,不是为了搞出厉害的AI展示算法能力。
暴雪的内置AI有十个级别,最厉害的三个是作弊的,AI能得到额外的资源和视野,Deepmind用的是最容易的那个级别。比赛是人族对人族,如果30分钟没有打完,就是和局。
结果是令人崩溃的!Deepmind训练出来的神经网络没有一局能打胜,甚至没有一个能打得象回事。表现“最好”的一种神经网络,它“学会”了将人族建筑飘到空中游动躲避攻击(但就没法搞生产了),然后生存大于30分钟拖成和局。如果是用过程中的分数作为训练目标(它和比赛胜负是有关联的),这些神经网络们不约而同收敛到了一个策略:让农民拼命采矿,其它什么也不干,对手来了就任人宰杀。
暴雪的内置AI是很差的,有些玩家声称能一家打六七个AI,因为AI的策略太简单。这个结果等于是说,Deepmind并没有做出有操作意义的AI,而是将以前机器从0知识开始不断试玩Atari小游戏的成功方法跑了一下。结论是,星际争霸远比小游戏复杂,过去的神经网络结构和训练方法是远远不够的。由于外界对Deepmind的预期很高,这次它报告的结果可能会让人意想不到,虽然Deepmind自己说这不令人意外。
为了探索神经网络自学习框架对星际争霸的作用,Deepmind还设计了七个迷你游戏,等于是相当于Atari小游戏难度的子任务。这七个迷你游戏跑出了一些有意义的结果。
图为四个迷你游戏。第一个是“移动到光标处”,玩家要反复操作一个人族士兵到达指定地点,成功一次加1分,不停做追求高分。第二个是不断操作两个士兵收集散落的水晶。第三个是持续生产水晶矿和气矿。
第四个是生产士兵,玩家需要先造出兵营才能造兵。可以看出,这都是很简单的生产型任务。还有三个战斗型小游戏,分别是3个人族士兵打虫族小狗、9个人族士兵打4只虫族蟑螂、人族士兵打虫族小狗和自爆虫,虫族兵种会不断冒出来,打死的越多分越高。对这些小任务,Deepmind让一个业余玩家和一个职业选手来多次玩,获得分数统计用于比较。
Deepmind从0知识开始训练AI玩这些小游戏,最后取得的能力是:“移动到光标处”AI做得比职业玩家好,因为机器操作快;“收集散落水晶”和业余玩家差不多;“打小狗”比业余玩家稍好;“打蟑螂”比业余玩家好一些,弱于职业玩家;“打小狗和自爆虫”比业余玩家差不少。
可以看出,这些小游戏AI算是会玩,但从0知识开始训练,基本就是业余水平。令人震惊的是“采矿采气”这种简单任务,AI比业余选手还要差很多,而“生产士兵”AI就等于不会,造不出几个兵。这可能是因为,想多采矿采气,需要一点“策略”,花一点钱生产农民(职业的还会让农民分散开缩短回基地距离提高开采效率),这AI没人指点就不太会。而“生产士兵”需要的策略就更多,先要多生产农民采矿,然后要造出兵营,还要多个兵营,“步骤”这么多,AI完全学不会。
-
本文仅代表作者个人观点。
- 请支持独立网站,转发请注明本文链接:
- 责任编辑:武守哲
-
比美国算法快14%!中国超大电力系统有“解”了 评论 17
美记者:在中国农村,我看到震撼一幕 评论 80
欧盟计划“流产”,俄罗斯:理智占了上风 评论 75
“逼迫西方下跪的,并非中俄” 评论 123
特朗普要封锁委内瑞拉,有人操心台湾:美国没底气了 评论 130最新闻 Hot-
比美国算法快14%!中国超大电力系统有“解”了
-
中国不惜命,打仗不会用无人机?美“专家”大翻车
-
核聚变成新风口,特朗普家族的眼睛又亮了
-
美记者:在中国农村,我看到震撼一幕
-
打持久战?“我们打不起”
-
突发!台北发生随机伤人事件:行凶者跳楼身亡,更多细节曝光
-
“一战再战”,《阿凡达3》还值不值得看?
-
又打压!特朗普签了,中方严厉表态
-
欧盟计划“流产”,俄罗斯:理智占了上风
-
坐不住了?马克龙:实在不行,还得和普京谈
-
“MIT教授遭枪杀与布朗大学枪击案有关”
-
“逼迫西方下跪的,并非中俄”
-
10月份海外美债持仓回落,中国持仓量降至2008年来最低
-
密集游说后,特朗普签了!大麻和泰诺同类
-
中邮保险举牌四川路桥,年内举牌四次
-
“别老哀叹没改变中国,美国先抄作业吧”
-

观察员
上海市互联网违法与不良信息举报中心