-
寒武纪创始人陈天石:如何评价Google最新AI计算高性能专用硬件TPU
关键字: 人工智能google论文TPU寒武纪【本文转自微信公众号“科工力量”(ID:guanchacaijing)】
不久前,百度首席科学家吴恩达在社交媒体上发表了一封公开信,宣布自己从百度辞职。吴恩达在公开信中称,百度的人工智能水平在很多方面已经达到了世界级水准。在过去的两年中,他在百度的两个最大的成就是无人驾驶汽车和DuerOS语音交互计算平台。
吴恩达
据媒体报道,谷歌为了满足自身运算量的需求,并没有去建立更多的运算中心,而是开发了适用于AI计算的高性能专用硬件—TPU。谷歌在一篇论文中提到,其自主研发的TPU在性能上一点不输英特尔,甚至在某些性能上还有所超越。
近年来与人工智能相关的产品如雨后春笋般冒出来,从谷歌、百度这样的大公司,到像寒武纪这样的初创公司,都在积极开发与人工智能相关的产品,那么,目前各家人工智能的产品究竟怎么样?
对此,科工力量日前专访了寒武纪科技创始人、首席执行官陈天石教授。
陈云霁与陈天石(右)
科工力量:谷歌需要使用上万个中央处理器运行7天来训练一个识别猫脸的深度学习神经网络。科大讯飞曾经采用大量CPU来支持大规模数据预处理,运行GMM-HMM等经典模型的训练,在千小时的数据量下,效果也不理想。这种结果的原因是什么?
答:面对特定应用领域时,CPU等通用处理器往往性能不够好,效能比不够高。我常把通用处理器比作瑞士军刀,用途广泛但不够专注。当某个特定应用领域足够重要,市场容量足够大时,人们会有动机去设计制造更专用的处理器芯片。最新的例子就是深度学习处理器,可以说是为人工智能领域打造了一把专用的菜刀。
科工力量:据媒体报道,谷歌为了满足自身运算量的需求,开发了适用于AI计算的高性能专用硬件TPU。谷歌在一篇博文中提到,其自主研发的TPU在性能上一点不输英特尔,甚至在某些性能上还有所超越。
谷歌表示,相比类似的服务器级Intel Haswell CPU和NVIDIA K80 GPU,TPU在AI运算测试中的平均速度要快15-30倍。更重要的是,TPU的每瓦性能要比普通的GPU高出25-80倍。此外,谷歌工程师还为TPU开发了名为CNN1的软件,其可以让TPU的运行速度比普通CPU高出70多倍。
我还了解到现在Google 的Olivier Temam曾经和您合作研究过寒武纪Diannao系列芯片,对于谷歌这款TPU,您怎么评价?
TPU上的内部结构
答:Google这次在ISCA 2017上发表的TPU仍然沿用传统脉动阵列机的结构,从google的数据看,对某些特定workload效率还不够好。事实上,这类结构我们早在ISCA2015上发表的ShiDianNao就已经讨论过了(Google的同行也非常了解我们这个工作),同时MIT于2016年前后发表的Eyeriss也是类似的架构。
脉动阵列机在深度学习上优缺点现在已经逐渐被学术界和工业界所熟知,那就是做卷积时效果不错(可能在退化情形的卷积上也会遇到困难),但是做其他类型的神经网络运算,可能效率不是那么高,通用性不是那么的好。
寒武纪没有走脉动阵列机的技术路线,而是迈出了具有寒武纪特色的一条通用智能处理器之路。当然Google未来一定会持续更新TPU的架构,我们十分期待未来继续与国际工业界和学术界同行同台竞技。
值得一提的是,Google发布的TPU论文,全文共引用了寒武纪团队成员前期发表的6篇论文(世界范围内可能没有另外一系列工作受到Google同行如此程度的关注),并有专门的段落回顾我们这一系列工作,并且在提到DaDianNao/PuDianNao/ShiDianNao时还专门用英文注释这几个名字的含义(Big computer, general computer, vision computer),对我们前期工作显示了相当的尊重。
非常值得骄傲的是,我们早期与Olivier Temam教授共同开展的这一系列开拓性学术工作,已经成为智能芯片领域引用次数最多的学术论文,成为世界范围内研发智能芯片必读的文献。如您所提到的,与我们共同开展DianNao系列学术研究的Olivier Temam教授,他本人在几年前就已经加入了Google。相信他会把DianNao系列的学术思想融入TPU后续的版本,把TPU的事业继续推向新高度。我坚信,未来不论是寒武纪或是Google TPU的成功,都会让DianNao系列架构在处理器发展史上留下浓墨重彩的一笔。
据传Google发布的TPU论文获得了ISCA2017(国际处理器架构年会)的同行评议第一名。而去年的ISCA2016的同行评议得分最高论文正是由寒武纪团队七名核心成员与UCSB的谢源教授共同发表的关于Cambricon指令集的学术论文。而Cambricon正是寒武纪公司的英文商标,这次也随同对这篇论文的引用进入了Google TPU的论文。
科工力量:在人工智能芯片方面,Intel推出了针对深度学习市场的众核CPU Knights Mill,英伟达推出了GPGPU,而且还有了DGX-1这样的产品。那寒武纪芯片相对于Intel和英伟达的众核芯片和GPGPU有什么优势?
答:寒武纪商用处理器的架构,是专门为深度学习乃至机器学习重新设计的一套全新的架构,而并非用传统的CPU向量扩展、GPU架构或脉动阵列机架构旧瓶装新酒,去处理深度学习应用。与这类架构相比,寒武纪处理器的运算效率更高,性能功耗比更高,在智能领域的通用性更好。寒武纪商用处理器很快会在终端和云端先后投入商用。
科工力量:阿尔特拉展示的一款可以用于深度学习和科学计算的FPGA其双精浮点性能为1.5TFlops。虽然性能稍弱一些,但是性能功耗比却非常惊艳,以达到50GFlops/W,是Intel众核芯片的四倍有余,如果将FPGA用于机器学习,那么整个系统对于基于标准CPU和GPU的服务器有明显的性能功耗比优势,在大规模部署后可以大幅节省电费开销。
那么对于FPGA在人工智能领域的前景您怎么看?FPGA相对于寒武纪有什么优势和劣势?
答:传统来说,FPGA主要大规模应用于处理器芯片研发过程中的验证阶段,用于在流片前检验处理器设计的正确性。近年来,FPGA常被应用于新兴的应用领域,取得了一定的效果。我个人的观点是,FPGA迭代速度快,能够快速切入刚刚兴起的领域。但当这个领域的重要性不断凸显,FPGA最终会被专用芯片所替代,因其运算速度和性能功耗比与专用芯片相比仍有较大差距。
科工力量:除了众核芯片、GPGPU、FPGA来做人工智能芯片,还有的厂商选择DSP,那么选择DSP又有何优劣呢?
答:现在的许多DSP方案所采用的的架构其实类似于Google所使用的脉动阵列架构,其优缺点与之类似。
-
本文仅代表作者个人观点。
- 请支持独立网站,转发请注明本文链接:
- 责任编辑:孙武
-
直播:神舟十八号载人飞船发射升空 评论 62“准备好为同志们挺身而出了吗?”“YES!” 评论 454哥大挺巴抗议持续,美众议长称国民警卫队应适时出动 评论 416安理会表决:俄方否决,中方反击美方指责 评论 304最新闻 Hot
-
阿斯麦新CEO上任,“在华业务是首要工作”
-
“中企强势进军,韩企在自己主场感到危机”
-
安理会上,俄美代表互相质问对方“为什么?”
-
周受资回应:我们哪儿都不会去
-
美官员:最近几周,美国已向乌克兰秘密提供远程导弹
-
“6年增加两倍”,美军高官又炒:中国速度“惊人”
-
“这泼天的富贵暂时轮不上美国”
-
“价格战太激烈,大众在华目标就是保住份额”
-
朔尔茨称“普京没资格”,俄方反怼
-
“以色列是种族隔离国家!”纽约爆发抗议,数百犹太人被捕
-
“宁德时代被美国施压还赚了,韩企投资美国怎么反而要亏?”
-
俄国防部副部长涉严重贪腐被拘
-
NASA局长抹黑中国登月,连专业常识都不顾了
-
特朗普迎接:我喜欢这人
-
欧洲急着减排,却发现实现目标得依赖中国
-
“中国报价太香,加税50%都吓不跑美国买家”
-