×
×

XPU、神经拟态、量子计算、异构整合.... 转向以数据为中心的英特尔5年技术回顾及未来计算展望

2019-12-24 08:38:46 来源:EETOP 作者:易建芯
近日,英特尔中国研究院院长宋继强带在英特尔技术创新媒体沟通会上梳理了英特尔过去五年的工作和成绩,分析了以数据为中心的转型的原因和价值,并为我们展望了下一代技术的发展趋势。


提起英特尔,大家第一时间想到的一定是CPU或者10nm什么时候量产?其实早在4~5年前,英特尔已经开始涉足以数据为中心的转型。到了2017年,英特尔正式确立了“以PC为中心”向“以数据为中心”的转型目标,进而有了完整的从软件到硬件、从通讯到计算到存储的计算架构、存储方案和连接方案。所有工作及产品都是围绕数据为中心这个理念来开展,CPU也仅仅是数据中心链上的一个产品分支。宋继强表示,只有将数据转化为业务价值,才能创造新的服务和体验。

接下来我们就跟随宋院长为大家梳理一下2015~2019这5年间英特尔的技术发展及未来趋势的展望。


数据为中心转型的动因
 
首先我们看看离不开的一个词——数据。计算是一个过程,输入就是数据,输出有很多种。数据产生了很多变化。



这张图非常有价值,刚好反映了三个时代,也可以说是三个十年。右边的大圈是从2010年之后开始的十年,中间的是2000年的十年,最左边的是2000年以前的。
我们知道2000年之前还是以PC计算为主,很少能够用到服务器、云计算。互联网蓬勃发展起来以后开始也只是用来搜一些东西,我们是以搜索为主的web1.0时代,那些内容都藏在互联网站里,根本用不了。但是到了web2.0,第一波互联网泡沫破裂之后,发现由少数人提供数据让大家搜,不能构成大的产业。web2.0靠的是用户贡献数据,这就把整个云计算催生出来了,这时候Server和PC同等重要。到了2008年之后,手机逐渐开始从功能手机转变到智能机,由之前的主要是是打电话,转变为更多的是可以用来上网和社交、看视频。到了2010年之后就开始正式进入IoT时代,更多的设备连上了网。之后又有了AI,让这些数据不仅仅是简单的存储、传输,而是需要深度挖掘里面的价值,这些传感器就可以分散到很多前端的设备里面去。



首先来看一下数据的量。上图显示的是量的走势图,分成不同的颜色,代表不同的量级。浅蓝色是数据中心的量的发展,边缘计算的是中间的蓝色,最深的是终端的。可以看出终端产生的数据量仍然是最大的,而且上升很快,数据中心的量是保持缓慢上升。

边缘从开始几乎没有多少,然后逐渐扩大,目前已经和数据中心的数据量差不多了。当越来越多的设备产生巨量的数据,由于网络承载能力以及云端存储的限制,我们必须把越来越多的原来让云里数据中心处理的计算和存储下沉,下沉到边缘。

由于数据的量和质都发生了很大的变化,于是在2015年的时候,英特尔提出了要开始以数据为中心的理念。
 

5年间的重要收购


2015~2019这5年间,英特尔都有重磅收购。这些收购都是围绕以数据为中心这个理念来展开的。

2015年收购FPGA领先的厂商 Altera,这是做,它就是代表了其中一种架构,就是FPGA的处理计算的架构。

2016年收购Nervana,Nervana是以定制的AI芯片,以ASIC方式解决AI深度学习加速的一种架构,我们称作NPU。英特尔原有的CPUGPU ,加上Altera的FPGA,再加上Nervana 的NPU ,在这个时间点上英特尔已经有了四种不同的架构了。

2017年还收购了Mobileye和Movidius。Mobileye之前是作为英特尔的合作伙伴来进军无人驾驶、智能驾驶的市场。收购Mobileye以后,英特尔又有了专门给汽车市场用的前置看车外面的摄像头,应该讲是以摄像头作为数据输入的ADAS(高级驾驶辅助系统),它是由软件的算法和软件的应用加速器构成,叫EyeQ。同一年收购的Movidius 其实也是一个专门的视觉AI加速芯片(VPU),只不过它是放在终端侧的,像摄像头、无人机这些地方,而前一年收购的Nervana是为了解决在服务器侧专用的AI加速芯片。所以从端到端来看,这两次收购并不重叠,但是他们都被放在了人工智能产品事业部里面,因为那个产品事业部会囊括好几种不同的AI产品。

2018年收购eASIC,大家知道FPGA需要很专门的编程技巧,做完以后产出的是在FPGA上的硬件加速逻辑,但这个如果是用了大批量的市场上,它的性价比不占优势,eASIC做的事情是形成一套自动工具,把它转换成可以在ASIC上做的设计,这样你拿在FPGA上验证好的知识产权核,其实就是一套设计,我们可以把它比较快的变成ASIC。同一年英特尔NetSpeed公司,收购NetSpeed将有助于改进其芯片设计工具,可以大大降低芯片设计成本。

2019年,英特尔刚刚收购了Habana Labs(参考:),和Nervana类似这是一个针对服务器端做AI的技术公司,Habana的产品已经在某些大的云服务商里做测试


英特尔XPU家族



通过近几年的收购,再加上英特尔的自有的CPUGPU,现在来看,英特尔手里有了非常完整的多种不同架构的芯片方案,我们成为XPU。

XPU,其实是代表了多种,X有很多种变化囊括了CPUGPU、NPU、XPU以及FPGA。也包括后面讲的Loihi神经拟态计算处理器、量子计算的处理器QPU,都是在“X”可变的范围内。
 

oneAPI : XPU的统一软件开发平台



面对这么多种不同的架构,如果采用现有的编程思想及方法,程序员将无法驾驭,编程效率也将非常低效。为此,英特尔推出了oneAPI,实现了XPU一体化开发。

我们知道对CPUGPUFPGA三个不同硬件做优化,采用的是不相同的编程语言及优化思想。

比如FPGA通常需要懂得硬件架构的工程师做优化,当你不了解硬件电路设计的流水线是为什么设计的时候,你是没有办法做优化的,所以它的要求是最接近底层。

有了oneAPI,情况就不一样了,开发工程师不需要知道具体是针对哪一种XPU来编程。假如现在要做一个完整的智能金融应用,可能要的就是几个功能:人的识别功能、生物认证加上人脸和语音,可能还要做动态认证。这些功能至于是放在CPU上还是CPU,还是ASIC上,工程师都不需要关注,把这个交给oneAPI就好了,oneAPI编译的时候会知道都用到了哪些硬件,可以你选用不同的方式去加速。总之,让你在这上面运行的最省电最快就好了。所以oneAPI想达到的目标就是让程序员最简单,让性能最好、功耗最低。

oneAPI现在已经有一套叫做基于开放规范的行业计划,我们做的oneAPI不仅仅是只有英特尔产品加入其中,第三方做的硬件,只要提供了相应产品的描述,也可以加入进来。
 

异构整合,轻松打造百亿亿级超算



所谓异构整合就是把很多不同类型、不同工艺的芯片封装到一个更大的芯片里面,这些工艺可以是10nm、14nm甚至是20多纳米的。功能可以包含:CPUGPU、内存、高速接口等等多种类型。

封装技术可以采用2.5D、3D封装来实现。如上图右侧图示的英特尔最先进的Foveros3D封装技术,可以把多个芯片分好几层堆叠起来。Foveros 3D封装不同层之间就像我们做建筑的柱子一样,预先要打好口、埋下钢筋,钢筋就是铜铸了,这样可以上下传输。

EMIB 2.5D是做横向连通的,同一层之间可以在基底上内嵌在表层附加这样的小芯片,去把这些不同的芯片之间的连接连起来。它带宽更高,功耗很低,体积很小。
3D Foveros技术是比较高级的,但它也比较昂贵,所以用到比较小尺寸,低功耗,又要高性能的这样异构的芯片。EMIB封装技术相对来说经济实惠的多,所以可以用在很多芯片里。
 
Lakefield是3D Foveros的一个例子,这是英特尔今年初在CES上展示的一个小条,大概是12cm x 2cm的尺寸。就这么一个小条就搞定了一个笔记本电脑主板了,可以看出Foveros的封装技术是何等的强大!


 
另外一个例子是“极光Aurora”超算架构,用来打造E级别超算的计算单元。采用3D Foveros封装技术,将2个志强处理器、6个X架构GPU以及内存、I/O等都封装到了一颗芯片里面,实现了以往一个主板的功能。


 

英特尔的未来计算

以上所有讲的是过去这四年间,所推出一些产品。面向未来,现在这些产品是不是就能够满足需求了呢?我们觉得这还是不够的,还需要更前沿的产品来持续发展补充,英特尔目前正在进行的面向未来的计算包括:神经拟态计算及量子计算。
 

1. 神经拟态计算

因为如果说把智能计算和人脑比的话,现有产品还有显著的差异,现有的AI芯片只是利用率人脑的神经元的简单的思想,具体的工作方式与人脑是完全不同的,如果需要更接近人脑,那么就需要采用类脑芯片设计,我们称为神经拟态计算。
 

大家知道,现在做一个图像识别或者是训练一个能做图像理解的加速器都需要消耗很多电力,有些高达数千瓦。而人脑仅仅相当于20瓦的一个设备,实际上你去训练,做一幅图像识别,也只是利用了人脑的部分功率,根本用不到全功率。从数千瓦的功耗做一件事情要降到十瓦做一件事情,这是千倍的差距。

为什么NPU要消耗这么多电?因为它需要通过很多数据反复的训练很大的一个网络,这个网络参数可能是上亿的,数十万次的训练。神经拟态计算是模拟人脑,这是很抽象的做了一个神经元,神经元的数学模型非常简单。神经拟态计算是试图去要模型人脑两个特点,第一个是事件驱动,人脑平时其实大部分处于休息状态,当有一个事件过来的时候才会根据那个事情的种类调动脑里面的一个部分,比如说这个事情是跟视觉相关的,视觉去工作一下,跟声音相关的,就声音去工作一下,其他部分是休息的,所以是事件驱动的。第二个是人脑在处理一些事情的时候是多种输入互相关联的,声音、图像、触觉是互相关联在一起,时间上是有相关性,而且输入信号的时间关系也要考虑到。而这个神经网络一般不太考虑时间上的信息,它就是一个静止的输入,形成一个训练的批次,再一批静止的能量过去又形成了一个训练的批次。如果它要去做视觉融合,就需要加另外的网络来做。人脑显然都是用一个脑子去做的,一个脑子去做很多事,所以这种训练出来的东西有多种整合的效果。所以想达到的目的就是利用人脑事件驱动的机制达到省电,还利用多种方式一起去学习和训练的机制达到跨领域的融合和相关。这是神经拟态计算特别想达到的目的。
 
Loihi的芯片英特尔2017年底发布的,采用14nm工艺制造,集成21亿个晶体管,核心面积60平方毫米,内部集成3个Quark x86 CPU核心、128个神经拟态计算核心、13万个神经元、1.3亿个突触,并有包括Python API在内的编程工具链支持。



这种芯片不采用传统硅芯片的冯诺依曼计算模型,而是模仿人脑原理的神经拟态计算方式,并且是异步电路,不需要全局时钟信号,而是使用异步脉冲神经网络(SNN)。

 

在稀疏编码、图式搜索、路径规划、同时定位和建图(SLAM)、约束满足问题等特定应用中,Loihi要比传统CPU速度快最多1000倍,能效高最多10000倍。
 
  英特尔将在2020年第一季度做到1亿个神经元(已超过了仓鼠的神经元数量)、10000亿个突触,预计会有768颗芯片、1.5万亿个晶体管。

从理论上讲,Loihi可以扩展到最多16384颗芯片互连,那就是超过20亿个神经元(人类大脑有大约860亿个)。
 
 

2. 英特尔的量子计算芯片

 
量子位的制造方式有两种方式。一种是由采用一大堆超导电路构成的(大多数公司都采用这种方案),严格来说并不是一颗芯片。这种方式需要接近绝度零度的超低温来维持量子的稳态。

另一种方式是由单电子的硅构成了自旋量子位。这种方式英特尔更擅长,也是未来英特尔量子计算的发展方向。目前英特尔已经在12吋的晶圆上做出了两个自旋量子位的芯片。这个如果能成功的话,就可以通过现在硅的生产制造产业链去做量子计算,打下了商业化基础。
 
此外量子计算、量子芯片要能够被测试,而测试设备要工作在很低的温度,不管是哪种都需要接近绝对零度的超低温度。为此英特尔推出了可以4开尔文(-269度)的低温下工作的控制芯片



这些都是为了能够真正构造实用化的量子系统做的进一步的工作。总的来说,这些工作都是非常困难的,既有理论难度,也有工程难度,每前进一步都要好几年的时间。
 

总结

在未来的十年,英特尔仍然是坚持“以数据为中心”和“六大技术支柱”一起推进,为未来的世界打下坚实的基础。
 

全部评论