陈经：Deepmind与暴雪开源接口，人工智能挑战星际争霸到哪一步了？

APP下载

扫一扫

下载观察者APP

陈经：Deepmind与暴雪开源接口，人工智能挑战星际争霸到哪一步了？
- 陈经风云学会会员，《中国的官办经济》
分享到：

2017-08-24 07:34:40 字号：A- A A+ 来源：观察者网

关键字: deepmind暴雪公司人工智能星际争霸AlphaGo绝艺神经网络架构

这说明，从0知识开始训练，改变神经网络结构玩游戏这个方法，只能解决有限的一些小游戏。对星际争霸这种复杂的策略游戏，纯自学连简单任务都做不好，更不要说和人对打，连最弱的内置AI也打不过。星际争霸操作类型很多，单一动作与最终回报因果关系不明，多种操作为了全局战略服务，机器从0开始自我学习很可能是走不通的，领会不到游戏的精要之处。

AlphaGo之前有一个很有意思的计划，从0知识开始自我学习出一个不受人类棋谱“污染”的围棋AI，如果能训练出来，这个AI会如何下棋非常有意思。

但可以猜测这个计划不成功，五月与柯洁的人机大战中没有提到。这种AI从随机乱下开始训练，可能陷入了某种瓶颈中出不来了，就如“生产士兵”小游戏一样，没有办法达到较高水平。人类高手的棋谱是有意义的，每一招即使不是最佳选择也很有逻辑，让AlphaGo的行棋选择有了逻辑基础，在这个基础上AlphaGo再深入地判断几个选择的好坏。

如果没有人类提供初始基础，AlphaGo自我训练很可能“Garbage in, Garbage out”无法持续提升。就象有些小孩很聪明也很努力学习，但如果没有明师指点学习方向，也不知道如何发挥聪明才智。

Deepmind这次也尝试了向人类学习如何打星际。AlphaGo有两个神经网络，分别是用于预测棋手选择的“策略网络”，以及预测局面胜负的“价值网络”。Deepmind也用人类星际争霸2的对战回放（replay）训练了两个网络，一个是“策略网络”用来学习在当前局面下人会怎么操作，一个“价值网络”用来预测当前谁胜谁负。

理论上来说，可以用这两个网络让AI来打星际，选择一个获胜概率大的操作来执行。用这种办法，Deepmind在“生产士兵”小游戏上有了突破，比之前的自学习方法多生产了不少人族士兵（应该还是不如人类玩家）。用“策略网络”与暴雪内置AI对打，也比之前的表现“好多了”。

之前根本就不能叫对打，最多只是自己的建筑飘起来逃跑，而向人类选手学习操作之后，AI能以较高的概率造出战斗部队了（这需要多个步骤，对AI并不简单，也有一定概率造不出来），甚至平均能造出七八个兵（在被消灭之前）。总的来说，神经网络学习人类操作以后，AI可以有一定机会摸到“造兵反抗”的正确方向，好过之前的“束手无策”或者“逃跑主义”，但也不太像是有主意的样子。

不管是从0开始自己玩学习，还是向人类选手学习操作，Deepmind的星际争霸AI最大的麻烦是，不知道自己要干什么。AlphaGo知道自己要优化每一步的胜率，它明确知道自己要干什么，一直这么做就能击败最强的人类选手。而星际争霸不是这样，开局AI需要多生产矿，然后要改变目标去造兵营，同时还有一堆不同的事要去做，这些“小目标”和最终获胜的“大目标”是什么关系，AI是很糊涂的。

虽然Deepmind取得的进展令人震惊的小，但要看到，它还是坚持机器学习的战略方向，坚决不用人去写代码解决问题。如果把代码写死，很容易就能写出不错的采矿造兵策略，比暴雪的内置AI强也不难。但这不是Deepmind的思想精髓，而是过去的老办法。Deepmind认为，要让机器具备学习能力，可以给它数据，不停找各种办法教它“学习”，但不能直接下命令让机器怎么做。

为此，Deepmind与暴雪公布了几十万局人类选手在战网的对战录像，并研发了一个对AI研发者很方便的开发环境SC2LE。全球研发者都可以用这些资源去研究星际争霸2的AI了，比过去要方便多了。这个意义不可小视，一个好的研发环境往往能促使大批好的研发成果出来，因为会有更多研发者加入进来（之前因为麻烦做不了）。

Deepmind挑战星际争霸的进展就是这些。对于人类选手的拥护者，这是极好的消息，Deepmind过去成功的机器学习方法，这次看来碰到了很厚的墙，短时间内应该不可能有星际争霸AI象AlphaGo那样自我对练后忽然跑出来天下无敌。Deepmind应该是感觉到这个项目短期无望，所以将平台开放，希望全球研发者一起来想办法。而之前AlphaGo看到突破的希望后，Deepmind扩大研发团队加强保密，搞了一个哄动全球的大新闻。

可以预计，会有不少星际争霸的机器学习研究进展出来。如更多的迷你游戏类型被尝试，改善神经网络结构向人类学习操作后抵抗时间更长。但这类“小进展”一段时间内只会让人类玩家会心一笑，对AI的能力给个很低评价。如果能通过机器学习的办法打败暴雪的内置AI，对研发者而言都会是极大的进展。真正让业界震动的革命性算法进步不可预期，也许能出来，也许长期出不来，但一定不是现在这些方法的拼凑组合。

其实Deepmind并不是最早开始挑战星际争霸的研究机构，这次提供的研发平台也不是最早的。2009年就有业余开发者做出了BWAPI，是对星际争霸1的。用这个接口，人们就可以开发AI来打星际争霸了。之前是没有办法的，开发者不太可能直接读取屏幕像素去分析各种单元，再操作鼠标键盘点击屏幕，会被界面开发烦死。有了BWAPI，各类星际争霸AI迅速出来不少。

加拿大纽芬兰纪念大学计算机科学系副教授 Dave Churchill（图片来源于网络）

从2010年开始，加拿大纽芬兰纪念大学计算机科学系副教授Dave Churchill等人组织了AIIDE（人工智能与交互式数字娱乐年度会议）星际争霸比赛，这是每年最重要的星际争霸AI赛事之一，取得好名次的AI会与人类选手进行对抗。这些AI的水平肯定超过暴雪的内置AI，如果说与人类选手对战，目前还得靠它们，Deepmind的AI看来一时指望不上。但是这些AI基本是用主动编程实现对战策略，有点象是AlphaGo出现之前围棋AI的格局。

首页上一页 1 2 3 4 下一页余下全文
标签人工智能星际争霸博弈 AlphaGo 开源算法
- 请支持独立网站，转发请注明本文链接：
- 责任编辑:武守哲
搜索

   观察者头条查看全部

外交部回应布林肯：中方从来没有兴趣，不要疑神疑鬼评论 196

护栏被冲破！美国校园两派“开打” 评论 338

加沙孩子感谢美国“挺巴”大学生：请继续支持我们！评论 121

李强：大力发展智能网联新能源汽车评论 93

“西方媒体，看清你们了！”拜登“走后门”也没躲过评论 169

   风闻 · 24小时最热查看全部

   最新视频查看全部
最新闻 Hot
快讯

陈经：Deepmind与暴雪开源接口，人工智能挑战星际争霸到哪一步了？

“不去管枪支医保教育，却禁掉我谋生工具，这就是我的国家”

“绝大多数美国人都已感到厌恶，这不是反犹是现实”

“美日想抢在中国前面登月，害怕中国人太自豪……”

护栏被冲破！美国校园两派“开打”

“同性恋最高可判15年”，伊拉克新法律被美英围攻

乌军总司令：前线局势正在恶化，俄军取得局部胜利

美7旬犹太裔总统候选人，也没幸免…

国际刑事法院将发逮捕令？“内塔尼亚胡怕了，不停打电话给拜登”

韩机构着急：在华韩货价格不如中国，质量不及日本

“我仿佛置身战区”

“继加沙后，以军还会把我们赶出约旦河西岸”

加沙孩子感谢美国“挺巴”大学生：请继续支持我们！

“哈马斯代表团将前往开罗，参加停火谈判”

“西方媒体，看清你们了！”拜登“走后门”也没躲过

马斯克抵京

“中国保持主导地位，美国第二”