-
我是黄士杰,AlphaGo人肉臂
关键字: 黄士杰阿法狗围棋人工智能到阿尔伯塔大学后,黄士杰继续研究蒙特卡洛树搜索。他还浅度参与了Fuego的开发,这个团队里还有Markus Enzenberger、Martin Müller等人,这个围棋参加了当年的ICGA大赛,不过可谓一无所获。
当年11月,夺冠的还是Zen。
时间再过一年,2012年11月,黄士杰也来到伦敦,加入DeepMind担任高级研究员。至少从这个时候开始,黄士杰开始用新的英文名:
Aja Huang。
2014年初
加入DeepMind的两年里,黄士杰似乎没有重大的研究成果。从论文发布量上看,也是如此,2014年前几乎搜不到他发的论文。
然而事情很快有了转机。
2014年1月26日,Google宣布5亿美元收购DeepMind,拿下这家日后会大放异彩的初创公司。
左为哈萨比斯,右为席尔瓦
有一天,席尔瓦走到黄士杰面前说:“Aja,我们准备启动一个围棋项目。最开始只有你和我”。2014年2月,AlphaGo项目正式启动,团队三个人:哈萨比斯、席尔瓦、黄士杰。哈萨比斯是整个公司的老板,席尔瓦是黄士杰的经理。所以,这个团队真正干活的只有黄士杰一个人。
AlphaGo项目,就是想搞出一个强大的围棋程序。而且从一开始,这个团队就决定不会尝试所有的方法,他们只有一个方向:沿着深度学习和强化学习的方向探索。也是从一开始,他们就知道这是一个非常困难的挑战。
哈萨比斯说,希望通过AlphaGo的研究,让机器获得直觉和创造力。
而更现实的困难是,与国际象棋相比,围棋的计算空间巨大,而且电脑无法理解一盘棋到底谁获得了胜利。
但他们就这样出发了。
2014年6月-2015年6月
这年夏天,AlphaGo的第一个重要武器出现了。在卷积神经网络的帮助下,AlphaGo学习了很多人类高手的棋谱,能在3毫秒内做出比肩人类的下棋直觉。后来黄士杰给这个武器命名:“策略网络”,并且持续进行训练优化。
这个时候,AlphaGo的训练还是在GPU上完成的。
时间再过一年。2015年6月,AlphaGo拥有了更强大、分布式的搜索技术支持。阅读棋局的能力大幅提升,可以检索多种局面变化,并且找到最佳的应对方式。这个时候的AlphaGo,可以算出后续40-60步棋。
(量子位注:击败柯洁的最新版AlphaGo,也只算到50步棋就停止了。)
当时在相同的硬件条件下,AlphaGo对另一个围棋程序Crazy Stone取得了70%的胜率,换句话说棋力领先了一个子。这个成就让整个DeepMind都很受鼓舞,哈萨比斯这时候对黄士杰说:
“Aja,咱们要组一个团队,你不用再单打独斗了”。
从这时候开始,逐渐有更多的深度学习工程专家加入AlphaGo团队。黄士杰还为新加入的同事办了一个训练班,普及基本的围棋规则。
黄士杰
2015年8月
与此同时,另一个重要的节点已在不远。两个月后,AlphaGo将掌握称霸围棋世界最关键的能力:形势判断。
“事实上,形势判断是围棋过程中最难、最令人头疼的环节,要进行准确的判断,必须具备精确测算双方目数的能力,同时还要兼备综观全局的大势观、挖掘潜在价值的分析能力和推理能力……要下出真正具有水平的围棋,形势判断十分必要。”
上面这段话,来自李昌镐。这位绰号“石佛”的韩国棋手,从1992年夺得第一个世界冠军开始,到2007年为止共获得18次个人冠军、13次团体冠军,开创了“李昌镐时代”。
- 原标题:我是黄士杰,AlphaGo人肉臂
- 责任编辑:李东尧
-
伊朗官方通讯社称莱希直升机事故系“技术故障” 评论 94意外还是阴谋?伊朗的当务之急是... 评论 98将暂代伊朗总统的他是何许人?未来50天将做什么? 评论 58总统及外长坠机遇难,将如何影响伊朗政局? 评论 344多张现场图公开 评论 363最新闻 Hot
-
总统及外长坠机遇难,将如何影响伊朗政局?
-
西媒称“或点燃中东火药桶”,但…
-
将暂代伊朗总统的他是何许人?未来50天将做什么?
-
他称“没有证据表明是谋杀”
-
美军前军官披露直升机隐患,“或与美国制裁有关”
-
“房子都起火了,还没人敲警钟”,拜登又晚了
-
刚果(金)挫败政变:主犯被击毙,包括3名美国人在内约50人被捕
-
事故直升机上共有9人,除了伊朗总统和外长还有谁?
-
多张现场图公开
-
多方表态
-
“好偏执,每个中国人都被怀疑是间谍,但西方无法再统治世界”
-
“美国站错队,让中俄在非洲钻了空子”
-
伊朗下一步怎么办?
-
他宣称:必须睁大眼睛紧盯中俄,威胁我们生活
-
伊朗总统乘坐的直升机硬着陆,美方密切关注
-
美媒探访莫斯科,发现全城都是这个词
-