麒麟掌

首页 » 常识 » 预防 » 亿晶体管,47倍AI算力,华为发
TUhjnbcbe - 2020/11/19 6:08:00

机器之心报道

机器之心编辑部

刚刚发布的麒麟是华为第三代AI芯片加持的手机处理器,也是第一代采用华为自研「达芬奇」架构的手机处理器,更重要的是,这款芯片将首次内置5G基带,这意味着5G终于走向了实用化。据悉,麒麟芯片将于月底搭载于Mate30手机上,很快与消费者见面。

「这是世界上性能最强的5GSoC,」华为消费者业务CEO余承东在发布会上表示。「也是业界首个,当今唯一一个旗舰级别的5G手机SoC。」

在德国慕尼黑今天举行的IFA展会开场Keynote上,余承东发布了华为新一代旗舰手机芯片麒麟。这块芯片采用台积电第二代7纳米工艺打造,在AI计算方面首次采用了达芬奇架构的自研NPU,而且改用了「两大核一小核」的设计,AI算力超越骁龙近5倍。而在图形计算方面,麒麟的GPU核心数一下子从10核增加到了16核。

性能与核心数的提升并没有让芯片体积变大:这一代麒麟的板级面积相比业界其他方案要小36%。

今天发布的麒麟实际上是两款芯片:麒麟5G版和麒麟。两款芯片支持的通信网络有所不同,所采用的制程和性能也不尽相同。华为表示,之所以将这一代旗舰手机芯片分成两款推出,是为了照顾到国外很多还没有发展5G服务的地区。

在麒麟芯片于德国发布的同时,机器之心也在北京与华为芯片和硬件的产品和技术规划负责人、华为Fellow艾伟进行了对话,他向我们介绍了麒麟采用的最新技术,并对5G+AI技术的未来进行了展望。艾伟表示,「麒麟将是用户第一个拿到手机的SoC集成5G基带芯片的SoC级产品」。

首款内置5G基带的手机芯片

「A公司目前还没有自己的解决方案,另外还有Q公司和S公司,他们的解决方案都是外挂模组实现的5G网络。」余承东表示,「还有一些公司发布的集成版5G芯片不知道什么时候才会上市。麒麟是首个和唯一一个集成了5G基带芯片的SoC。」

为什么内置5G基带这么重要?首先,将5G基带集成到手机SoC中后,因为效率提升,从能耗上来看手机和4G时代的手机使用习惯是一样的。所以,5G集成的SoC是整个产业技术到位的标志。

华为麒麟芯片可以达到2.3Gbps下行速率,这也是目前5G通信理论上的最高值,上行速率则为1.25Gbps。同时,这款芯片率先支持5G双卡,一卡5G上网的同时,另一卡可接听VoLTE高清语音通话。

「目前我们认为,麒麟将是用户第一个拿到手机的SoC集成5G基带芯片产品,而且完全是不同档位的产品,和此前其他厂商的产品完全没有可比性。」艾伟表示。

除了集成基带之外,华为还对于5G网络进行了很多优化。首先,华为芯片基于机器学习的自适应接收机制,在高速移动的场景下,实现了更高的下行速率,效率比其他厂商的产品更高。

在弱信号的情况,由于各国的5G网络还处于初期布局阶段,基站数量较少,麒麟的智能上行分流设计可以在这种情况下实现更高的吞吐量。在视频直播、短视频上传等应用场景同时使用5G和4G网络,上传速率提升5.8倍,优化5G上行体验。为解决5G带来的功耗问题,麒麟5G率先支持BWP(BandwidthPart)技术,在5G大带宽条件下实现带宽资源的灵活切换,与业界主流旗舰芯片相比,5G功耗表现优44%,带来更长效的5G体验。面向高速移动场景,麒麟5G支持基于机器学习的自适应接收机,实现更精准的信道测量,下行速率提升19%,实现稳定的5G联接。

麒麟5G拥有最好的5G解决方案,另一方面功耗也有最好的表现。在下行速率1.2Gbps情况下的实测高于骁龙+外接5G。当然,因为麒麟5G先行使用了目前台积电最新制程,华为表示芯片的成本也会提高很多。

每年的IFA展会都是各家科技公司争发新品的时间点,就在2天前,三星抢先华为一步发布了内置5G基带芯片的「猎户座」芯片(Exynos)。它采用三星自家的8nmFinFET工艺制程,在芯片工艺上似乎还是慢了华为一拍。

三星称,猎户座不仅支持Sub-6GHz的5G网络,还支持5G毫米波频段。在Sub-6GHz频段,最高下行速率可达2.55Gbps,最高上行速率达1.28Gbps。但这一下载速率也引发了华为手机产品线副总裁李小龙的质疑。

不过这颗猎户座将于今年年底开始批量生产,落地到5G终端上的时间尚不明确,到底谁会是最先落地的5G芯片?

亿晶体管:你能买到的最强芯片

麒麟芯片的尺寸比上一代还要小,然而却集成了多达亿个晶体管——比去年麒麟的晶体管数量多出了近50%,这一数量也让它成为了目前手机上晶体管数量最高的芯片。

如此强大的算力,不仅是为了提升AI性能,也是为了能够塞进5G基带,并尽可能的降低功耗。艾伟表示此前麒麟+巴龙,以及高通的骁龙+X55外挂5G解决方案的推出说明计算芯片和通信芯片两边的技术都已解决。但若想降低功耗,则必须要使用更为先进的制程工艺。

「上一代的麒麟有69亿晶体管,麒麟已有亿晶体管。对于5G通信,问题在于怎样在不影响功耗的基础上解决问题。在这里如果效率不够高,晶体管数量还会更多,」艾伟表示。「而我们目前看到的很多5G芯片规格都不是旗舰机的规格,旗舰机用旧的工艺是支撑不了的。」

在芯片制程上,去年台积电就量产了7nm工艺,并已在苹果A12、麒麟等芯片上应用,相比之前的10nm工艺有了较大提升。但第一代7纳米工艺并没有使用EUV光刻机,在今年量产的第二代7nmEUV工艺上,华为麒麟再次抢占了首发位置。

这也就是为什么麒麟在没有使用最新Arm内核的情况下还提升了性能的原因:麒麟上的CPU、GPU型号依然沿用了CortexA76和Mali-G76,呈2大核+2中核+4小核设计,最高主频可达2.86GHz。与业界主流旗舰芯片相比,麒麟的单核性能高10%,多核性能高9%。能效方面针对不同大小的核精细调校,大核能效优12%,中核能效优35%,小核能效优15%。

麒麟5G搭载的16核Mali-G76GPU,与业界主流旗舰芯片相比,图形处理性能高6%,能效优20%。全新系统级SmartCache分流,支持智能分配DDR数据,在重载游戏等大带宽场景下带宽较上一代最高可节省15%,功耗可降低12%,进一步提升GPU能效。

「昨天,我看到了友商发布了一款PPT芯片,」余承东说道。「他们的GPU(Mali-G77)只有5核,我们的手机芯片是旗舰机的。」

拍照一直是华为手机领先的领域,麒麟搭载了全新KirinISP5.0,全球首发手机端BM3D(Block-Matchingand3Dfiltering)专业图像降噪技术。据余承东介绍,这是一种业内领先的图像降噪算法,此前主要被应用在单反相机上——从未出现在手机上。

「为什么其他厂家想不到?这主要是能力问题,」艾伟表示。「手机摄像头天生比单反相机的感光面积小,所以我们要必须使用专有的算法,并控制功耗,同时避免成像时间太长。麒麟全球首发的双域联合视频降噪技术,在空域视频降噪和时域降噪之外,又加入了频域降噪技术。几种方法叠加起来,我们获得了更好的效果。」

自年起,华为接连推出了全球首款搭载AI处理器的手机芯片麒麟,首款搭载双核NPU的麒麟,一直引领着旗舰手机处理器的创新之路。值得一提的是,华为这次还为来到发布会现场的每个人发了一本新书《熵减:华为活力之源》,其中首次披露了华为麒麟系列芯片的研发历程。

中美 对于华为的芯片研发也有很大影响。前不久,在华为8月23日发布升腾芯片的活动中,徐直*就曾表示华为已经与三家EDA公司Synopsys、Cadence、Mentor停止了合作。接下来华为的芯片设计软件将会转向哪家?在活动中,艾伟表示:未来我们会自己做。

达芬奇NPU双大核+微核架构

麒麟首次在华为旗舰手机芯片中采用了自研的NPU,而且这次还采用了两个大核(昇腾Lite)一个小核(昇腾Tiny)的新设计,华为表示这是为了更为贴近手机的日常使用,为减小功耗而设计。通常,小核可以用来承载智能语音唤醒、语音识别、人脸解锁等任务的计算任务,同时也可以负责唤醒大核,并可以和大核共同进行AI任务计算。

在人脸识别的应用场景下,NPU微核的能效可达大核的24倍,让AI运算更省电。华为表示采用这种设计,手机每天的耗电量可以减少5%。

华为表示,新的NPU性能在AI算力上已经比麒麟提升了12倍,比麒麟提升了1.88倍。毫无疑问这是目前手机上最强的AI算力了。如此强大的算力可以支持实时的图像多实例分割:为多人物背景替换等应用。

在双大核NPU(AscendLite×2)的加持下,麒麟5G与业界其他旗舰AI芯片相比,性能优势高达6倍,能效优势高达8倍。无论是在业界典型的中载神经网络模型ResNet50(用于检测、分割和识别),还是在移动端更流行的轻载神经网络模型MobilenetV1(用于分类、检测、嵌入和分割)下,麒麟5G的FP16和int8性能和能效均达到业界最佳水平。

「达芬奇」是华为近期推出的神经网络处理单元新架构,最早出现于今年7月随荣耀9X推出的麒麟手机芯片上,随后又出现于今年8月的服务器级AI芯片昇腾上。达芬奇架是在Arm架构基础之上研发的AI硬件处理单元,其AI加速器(达芬奇NPU)采用了创新的3DCube针对矩阵运算进行加速,大幅提升了单位功耗下的AI算力。

具体来说,达芬奇NPU的每个AICore可以在一个时钟周期内实现个MAC操作,相比传统的CPU和GPU实现数量级的提升。

3DCube

目前常见的AI计算,其核心是矩阵乘法运算,计算时由左矩阵的一行和右矩阵的一列相乘,每个元素相乘之后的和输出到结果矩阵。在此计算过程中,标量(Scalar)、向量(Vector)、矩阵(Matrix)算力密度依次增加,对硬件的AI运算能力不断提出更高要求。

典型的神经网络模型计算量都非常大,这其中99%的计算都需要用到矩阵乘,也就是说,如果提高矩阵乘的运算效率,就能最大程度上提升AI算力——这也是达芬奇架构设计的核心:以最小的计算代价增加矩阵乘的算力,实现更高的AI能效。

同时,为了提升AI计算的完备性和不同场景的计算效率,达芬奇架构还集成了向量、标量、硬件加速器等多种计算单元。同时支持多种精度计算,支撑训练和推理两种场景的数据精度要求,实现AI的全场景需求覆盖。

在苏黎世理工推出的AIBenchmark上,麒麟也获得了非常高的分数——超越此前最高的麒麟接近一倍:

余承东表示,麒麟的AI计算表现是高通骁龙的%。

麒麟支持最多支持多种算子数量(骁龙支持多种),支持90%的视觉神经网络,同时也支持PyTorch、TensorFlow等框架。

推动万物互联:麒麟A1芯片

发布会上,余承东还介绍了一款物联网芯片:麒麟A1。

这是一款非常紧凑的芯片,旨在连接各种各样的物联网设备。

余承东同时介绍了使用A1芯片的华为Freebass耳机。

这是使用A1芯片的华为新一代无线耳机,在诸多方面有更好的使用体验。

5G+AI的未来体验

华为认为,只有到芯片制程进入到7纳米后5G才能够实用化。在麒麟等下一代芯片推出以后,未来的一年内将会出现多达1亿5G+AI用户,这将催生出一些我们现在还想象不到的新应用。不过,开发新形式的应用还需要整个行业的共同努力。

麒麟5G也将为HiAI2.0开放平台注入新的能量。余承东表示,华为提供了完备的IDE工具,AndroidStudio插件,其支持代码自动生成等功能。另外,华为开放了达芬奇架构IR工具,支持业界主流框架对接,实现更加完备的兼容性,让算法开发者们可以保持原有的开发习惯,在HiAI平台上自动获取加速能力。

「消费者买到手机的时候,实际上他买到了大量的服务——并不是说华为包打天下,」艾伟表示。「从历史上看,在2G时代,运营商逐步建网,我们还需要购买进口手机。在3G和4G时代,随着移动互联网的兴起,各类应用逐步发展起来,而国内的网络覆盖率现在已经远远高于世界上其他国家。我们享受的4G体验已经超过了其他国家。」

过去两年之间,华为麒麟的人工智能API调用次数已经超过了1.6万亿次,涉及拍照、旅行、购物、健康、教育、创意等多种不同领域。未来的5G会变成什么样,目前我们还不清楚。但中国是最有条件去探索的国家。至少在这个产业里,我们已经不用去看其他人是怎么做的,因为我们自己就是探索者了。中国未来或许会成为其他国家参考的榜样。

「我自年起进入通信行业,到现在已有26年,今天正在发生的情况还是头一次。」艾伟说道。

在未来,因为5G大大降低了通信延迟,并提升了带宽,我们可以实现端云协同的实时推理,全新的AI和AR应用将会进入我们的生活。

如此强大的芯片当然会出现在旗舰手机当中,余承东确认,麒麟两款芯片将会率先搭载于华为mate30系列手机上,而Mate30很快就会在9月19日于德国正式发布。

本文为机器之心报道,转载请联系本
1
查看完整版本: 亿晶体管,47倍AI算力,华为发