麒麟掌

首页 » 常识 » 诊断 » 性能秒杀麒麟970苹果A11,Imagi
TUhjnbcbe - 2023/1/24 15:18:00
重庆白癜风 http://pf.39.net/bdfyy/bjzkbdfyy/210921/9471529.html

年8月21日,全球知名的图形处理器技术厂商ImaginationTechnologies在深圳召开媒体发布会,正式发布了新一代的图形处理器PowerVRSeries9XE和9XMGPU,与此同时,Imagination还发布了旗下首款神经网络加速器PowerVRSeries2NXNNA。

终端侧部署人工智能已是大势所趋

随着人工智能技术的发展,越来越多的行业开始引入人工智能技术。虽然,此前众多的人工智能都是依赖于云端来实现的,但是在终端侧部署人工智能已成为大势所趋。现在不少智能手机芯片、手机终端厂商也开始将人工智能技术部署到智能手机终端上。

虽然,智能手机依靠云端也能够实现“人工智能”,但是仍有着很多弊端。首先,个人隐私数据上传到云端会对隐私不利;其次,云端人工智能需要较高的带宽支持(可能会有大量的数据传输),同时功耗也更高;第三,云端人工智能会有较高的延时性,对于延时性要求较高的产品并不适合,比如无人机。

而用户在本地终端上进行部署人工智能计算则不会有这些问题,而且可以有更高的安全性、更高的性能、更低的功耗、更低的延时、更高的可靠性、对于带宽的需求也更低。显然,在终端侧部署人工智能是很有必要的。

所以我们也可以看到,年高通正式发布了骁龙神经处理引擎SDK,加入到了骁龙处理器当中。今年9月2日(德国当地时间),华为也正式发布了全球首款内置神经元网络单元(NPU)的人工智能处理器麒麟。随后,在美国当地时间9月12日,苹果发布的新一代iPhone所搭载的A11仿生处理器也加入了全新的神经网络引擎。显然,在终端侧部署人工智能已成为大势所趋。

ImaginationPowerVR市场高级总监ChrisLongstaff认为:“未来人工智能将像CPU、GPU和视频编解码器一样在SoC中无处不在,这需要硬件来实现。”即在SoC当中加入人工智能处理器。

神经网络处理器大受青睐

人工智能的概念比较广泛,目前有很多厂商采用原有的CPU、GPU,或者DSP来进行人工智能计算,但是相对而言,基于神经网络的人工智能专用处理器更受市场青睐。

从技术角度看,包括深度学习在内的人工智能实际上是一类多层大规模人工神经网络。它模仿生物神经网络而构建,由若干人工神经元结点互联而成。神经元之间通过突触两两连接,突触记录了神经元间联系的权值强弱。每个神经元可抽象为一个激励函数,该函数的输入由与其相连的神经元的输出以及连接神经元的突触共同决定。为了表达特定的知识,使用者通常需要(通过某些特定的算法)调整人工神经网络中突触的取值、网络的拓扑结构等。该过程称为“学习”。在学习之后,人工神经网络可通过习得的知识来解决特定的问题。

由于神经网络计算的类型和计算量与传统计算的区别,导致在进行神经网络计算的时候,传统CPU、DSP甚至GPU都有算力、性能、能效等方面的不足,所以激发了专为神经网络计算而设计处理器或加速器的需求。

目前神经网络计算类型主要有卷积神经网络(CNN)、循环神经网络(RNN)和长短期记忆网络(LSTM)等。

CNN是一种前馈神经网络,人工神经元可以响应周围单元,可以大型图像处理。卷积神经网络包括卷积层和池化层;而RNN神经网络是一种节点定向连接成环的人工神经网络。这种网络的内部状态可以展示动态时序行为。可以利用它内部的记忆来处理任意时序的输入序列,这让它可以更容易处理如不分段的手写识别、语音识别等;LSTM是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。

Imagination推出神经网络加速器PowerVRNNA

面对市场对于人工智能在终端侧部署的需求,今天Imagination宣布推出了旗下首款神经网络加速器PowerVRNNA,其首款产品就是PowerVRSeries2NXNNA。

据介绍,ImaginationPowerVRNNA是一个从0开始设计的完整、独立式的硬件IP神经网络加速器,通过神经网络(NN)专用的PowerVR架构实现。

PowerVRNNA的特色在于可以同时支持CNN、RNN、LSTM三种神经网络类型,并且可支持caff、caffe2、GoogleTensorFlow等通用机器学习体系架构,还支持可适用于移动端的TensorFlowLite、caffe2go等机器学习体系架构。同时,PowerVRNNA还可提供业界领先的面积效率。

这也使得PowerVRNNA可以用于移动、监控、汽车与消费等众多领域,并以非常低的功耗实现神经网络的高性能运算。

Imagination表示,NNA的潜在应用不计其数,其中包括AR/VR头戴设备中的特征检测与眼球追踪;汽车安全系统中的行人检测与驾驶员警觉性监控;智能监控系统中的脸部辨识与人群行为分析;网络诈欺检测、内容建议(contentadvice)、以及预测性UX;虚拟助理应用中的语音识别与回应;以及无人机中的防撞与对象追踪等。

以无人机为例,如果以67米/秒的速度飞行,在没有部署人工智能硬件的情况下,通常需要10-15米的防碰撞距离。而如果采用了PowerVRNNA则可以实现在不到1米的距离内避开障碍物,同时由于可支持多个神经网络,所以可在避免碰撞的同时识别和跟踪物体。

另外,以移动设备上的照片/视频识别为例,高端GPU对张照片进行搜索/排序,大约需要60秒;消耗1%的电量,可实现照片排序张或者视频分析1分钟20秒(视频的时长)。而如果采用PowerVRNNA对张照片进行搜索/排序,只需要2秒;消耗1%的电量,可实现照片排序张或者视频分析分钟。

显然,得益于PowerVRNNA的部署,终端侧的人工智能将会变得比以往更加的高效。

“NNA将会成为一种基本类型的处理器,预计会跟CPU和GPU一样重要,而这两类处理器Imagination均已能供应。”ChrisLongstaff非常自豪的说到。

PowerVR2NXNNA架构和特性

作为Imagination神经网络加速器PowerVRNNA的首款产品——PowerVR2NXNNA又有哪些特色呢?

官方的资料显示,PowerVR2NXNNA采用的是可扩展架构:16位支持-MAC/每时钟频率,8位支持-MAC/每时钟频率。通过多核扩展可支持超过MAC/每时钟频率。同时支持在未来开发不同性能和特点的内核,以满足不同市场和应用需求。

灵活支持不同位长的数据类型:支持16、12、10、8、7、6、5、4位——汽车等一些市场需要16位支持,而另一些市场可能则只需要较低精度即可,这样可以更快速度的处理;权重和激活位宽精度每层均可调节;以最小功率和带宽实现最大性能。

可变精度的内部数据格式:累加器内部在需要时可支持高精度运算,而输出精度可调;可为结果保证最佳精度。

为所有关键神经网络层提供全硬件支持:“加速器”——为处理提供全硬件支持,主CPU用于驱动;最大限度的提高性能,减轻CPU负载;支持多种网络类型。

与ISP、GPU和CPU兼容的读写格式:以最少的外部处理和带宽,确保与其他系统组件的互操作性;支持NNEF等交换格式

加速器内优化数据流:旨在减少对外部存储器的访问。

MMU(内存管理单元)可配:支持Android或者其他复杂的操作系统。

PowerVR2NXNNA可吊打麒麟和苹果A11?

那么PowerVR2NXNNA性能相比现有的其他人工智能硬件解决方案来说到底如何呢?

据Imagination介绍,PowerVR2NXNNA这样的专用的人工智能硬件解决方案——与单纯的DSP解决方案相比,它可提供8倍的性能密度提升,同时将能以最低的功耗与成本达到最高的性能。

从上面的这张图上,我们可以看到,PowerVR2NXNNA的性能最高可达MAC/每时钟频率,远超DSP、CPU、NNSDP、DSP+Hardware、DSP+Hardware、VPU+Hardware等解决方案,是目前性能最接近的竞争对手的两倍,同时,所需要的面积却不到其1/2。(Imagination称,以上数据是基于卷积神经网络的实测数据或竞争对手的公开数据)

Imagination表示,PowerVR2NXNNA可目前实现最高效率的解决方案,可提供:业界最高的单位毫瓦推理(inference/mW)IP内核,以提供最低的功耗;业界最高的单位面积推理(inference/mm2)IP内核,可实现最具成本效益的解决方案。

此外,PowerVR2NXNNA是业界最低带宽的解决方案,能最小化外部DDR内存的带宽需求,神经网络非常耗费带宽,这也会为SoC设计人员和OEM公司在设计系统时带来挑战,而PowerVR2NXNNA支持权重与数据的高灵活性位宽,包括低至4位的低带宽模式,确保系统的性能不会受到带宽的限制

根据Imagination的数据显示,相对与8位的带宽模式来说,4位的低带宽模式下,PowerVR2NXNNA性能提升了60%,功耗降低了69%,但是相对精度只降低了不到1%。与竞争对手的解决方案相比,PowerVR2NXNNA所需的带宽只有其25%-50%。

回过头来,我们再来看看PowerVR2NXNNA与目前备受

1
查看完整版本: 性能秒杀麒麟970苹果A11,Imagi