-
最强版阿尔法狗已停止进一步强化 缔造者称正着手星际争霸
关键字: DeepMind开发星际争霸最强版阿尔法狗澎湃新闻10月20日报道,DeepMind公司10月18日新发布的最强版阿尔法狗(AlphaGo Zero)仅用3天时间,490万盘自我对弈的训练数据,一台机器和4个TPU就打败了战胜过韩国棋手李世石对弈的AlphaGo。该团队成员称,公司内部已经停止了AlphaGo的强化研究,他们正着手开发星际争霸。
AlphaGo项目首席研究员,大卫·席尔瓦 澎湃新闻视频截图
仅用3天时间,490万盘自我对弈的训练数据,一台机器和4个TPU就打败了战胜过韩国棋手李世石对弈的AlphaGo,DeepMind公司10月18日新发布的最强版AlphaGo Zero技惊四座。
在最新的论文和官方博客中,DeepMind联合创始人兼CEO 、AlphaGo之父戴密斯·哈萨比斯(Demis Hassabis)和AlphaGo团队负责人大卫·席尔瓦(Dave Sliver) 将AlphaGo Zero的成功归咎于强化学习的升级。这一次,他们仅采用单一的神经网络,综合了策略网络和价值网络两种此前用的方法,在不用人类棋谱的情况下,完成了上所述的成就。
10月19日,大卫·席尔瓦与团队另一成员 Julian Schrittwieser 代表 AlphaGo ,在问答新闻社区Reddit上回答了网友的提问。
在问答过程中,席尔瓦透露,目前,DeepMind内部已经停止了强化 AlphaGo 的积极研究,但仍保留了研究试验台,以供 DeepMind 人员验证新思路和新算法。至于未来是否会开源给全球开发者共享。席尔瓦表示,DeepMind之前已经开源了大量的代码,但过程一直非常复杂。不幸的是,AlphaGo 项目的代码库更加复杂,甚至可以说复杂的过分了。
值得一提的是,据两位成员透露,在开发AlphaGo的过程中,DeepMind团队遇到的最大困难是在与李世石比赛期间出现的。当时,团队意识到 AlphaGo 偶尔会受到错觉(delusion)的影响。即对弈中,会持续多次系统地误解当前的棋局。他们尝试了很多方法来解决,如给程序灌输更多的围棋知识或人类元知识。这一次他们的解决方法是让系统的算法变得更加条理化,使用更少的知识,更多地依赖强化学习来生成更高质量的解决方案。从最终结果看,效果还不错。
AlphaGo Zero更多依靠强化学习算法,而不是人类数据的方法,也引发了算法和数据之间哪个更重要的讨论。在Julian Schrittwieser看来,目前算法仍然比数据更重要,只要看看 AlphaGo Zero 比之前几个版本的训练效率高出那么多就能理解。但这也表明,未来,数据在训练效率上的重要性还会有很大的提升。
DeepMind与暴雪合作打造的图形界面,将把《星际争霸 2》简化成基本的视觉图形 图源:钨丝科技
另外,网友还特别关心了DeepMind星际争霸人工智能的开发进度,Julian Schrittwieser回答道:“我们宣布开放星际争霸 2 环境刚过去几个星期,所以现在还处于早期阶段。星际争霸的行动空间确实要比围棋更具挑战性,因为其观察空间要远大于围棋。从技术上讲,我认为两者最大的区别之一在于围棋是一种完美信息博弈,而星际争霸因为有战争迷雾,属于不完美信息博弈。”
在问答中,也有网友将DeepMind的人工智能与Facebook的研究做比较,两者究竟谁更胜一筹。对于这个问题,席尔瓦说:“Facebook 更关注监督学习,它能产生当时性能最优的模型;而我们更关注强化学习,因为我们相信它最终会超越人类已有的知识而进一步取得提升。我们最近的结果实际上表明,只有监督学习确实可实现令人惊叹的表现,但强化学习绝对是超越人类水平的关键。”
澎湃新闻记者/王心馨
- 原标题:最强版阿尔法狗已停止进一步强化,缔造者称正着手星际争霸
- 责任编辑:徐蕾
-
美议员放话:要帮秘鲁从中国拿回钱凯港 评论 18
“经济狂怒”逼伊朗就范?美媒翻旧账:已多次翻车 评论 77
“与中国打交道,装腔作势的政治作秀没用” 评论 80
“摸着中国石头过河”,苏林此访能学到啥? 评论 100
“芯片又不是浓缩铀,卖给中国怎么了?” 评论 148最新闻 Hot-
斯坦福报告:美国这个优势,中国要抹平了
-
奢侈品巨头:不能再把中国当垃圾桶
-
金建希拒与尹锡悦对视?律师回应:她用余光看,回看守所还哭了
-
首次,我国科学家手搓“类球状闪电”!
-
黎巴嫩“打脸”以美:我们不知道
-
中方捐赠58吨医疗物资,伊方:诚挚感谢
-
美议员自嘲:10年后,咱们就没啥技术让中国“偷”了
-
美议员放话:要帮秘鲁从中国拿回钱凯港
-
日方至今没有道歉,中方回应
-
扎哈罗娃:我得学日语
-
黎以10天期停火生效,美国务院:以色列保留“自卫权利”
-
美记者:特朗普的宗教是“以色列主义”
-
“经济狂怒”逼伊朗就范?美媒翻旧账:已多次翻车
-
“今年夏天,英国恐将缺肉少酒”
-
教皇:他们有祸了
-
“与中国打交道,装腔作势的政治作秀没用”
-

观察员
上海市互联网违法与不良信息举报中心