亿晶体管,47倍AI算力,华为发 - 麒麟掌

TUhjnbcbe - 2020/11/19 6:08:00

机器之心报道

机器之心编辑部

刚刚发布的麒麟是华为第三代AI芯片加持的手机处理器，也是第一代采用华为自研「达芬奇」架构的手机处理器，更重要的是，这款芯片将首次内置5G基带，这意味着5G终于走向了实用化。据悉，麒麟芯片将于月底搭载于Mate30手机上，很快与消费者见面。

「这是世界上性能最强的5GSoC，」华为消费者业务CEO余承东在发布会上表示。「也是业界首个，当今唯一一个旗舰级别的5G手机SoC。」

在德国慕尼黑今天举行的IFA展会开场Keynote上，余承东发布了华为新一代旗舰手机芯片麒麟。这块芯片采用台积电第二代7纳米工艺打造，在AI计算方面首次采用了达芬奇架构的自研NPU，而且改用了「两大核一小核」的设计，AI算力超越骁龙近5倍。而在图形计算方面，麒麟的GPU核心数一下子从10核增加到了16核。

性能与核心数的提升并没有让芯片体积变大：这一代麒麟的板级面积相比业界其他方案要小36%。

今天发布的麒麟实际上是两款芯片：麒麟5G版和麒麟。两款芯片支持的通信网络有所不同，所采用的制程和性能也不尽相同。华为表示，之所以将这一代旗舰手机芯片分成两款推出，是为了照顾到国外很多还没有发展5G服务的地区。

在麒麟芯片于德国发布的同时，机器之心也在北京与华为芯片和硬件的产品和技术规划负责人、华为Fellow艾伟进行了对话，他向我们介绍了麒麟采用的最新技术，并对5G+AI技术的未来进行了展望。艾伟表示，「麒麟将是用户第一个拿到手机的SoC集成5G基带芯片的SoC级产品」。

首款内置5G基带的手机芯片

「A公司目前还没有自己的解决方案，另外还有Q公司和S公司，他们的解决方案都是外挂模组实现的5G网络。」余承东表示，「还有一些公司发布的集成版5G芯片不知道什么时候才会上市。麒麟是首个和唯一一个集成了5G基带芯片的SoC。」

为什么内置5G基带这么重要？首先，将5G基带集成到手机SoC中后，因为效率提升，从能耗上来看手机和4G时代的手机使用习惯是一样的。所以，5G集成的SoC是整个产业技术到位的标志。

华为麒麟芯片可以达到2.3Gbps下行速率，这也是目前5G通信理论上的最高值，上行速率则为1.25Gbps。同时，这款芯片率先支持5G双卡，一卡5G上网的同时，另一卡可接听VoLTE高清语音通话。

「目前我们认为，麒麟将是用户第一个拿到手机的SoC集成5G基带芯片产品，而且完全是不同档位的产品，和此前其他厂商的产品完全没有可比性。」艾伟表示。

除了集成基带之外，华为还对于5G网络进行了很多优化。首先，华为芯片基于机器学习的自适应接收机制，在高速移动的场景下，实现了更高的下行速率，效率比其他厂商的产品更高。

在弱信号的情况，由于各国的5G网络还处于初期布局阶段，基站数量较少，麒麟的智能上行分流设计可以在这种情况下实现更高的吞吐量。在视频直播、短视频上传等应用场景同时使用5G和4G网络，上传速率提升5.8倍，优化5G上行体验。为解决5G带来的功耗问题，麒麟5G率先支持BWP（BandwidthPart）技术，在5G大带宽条件下实现带宽资源的灵活切换，与业界主流旗舰芯片相比，5G功耗表现优44%，带来更长效的5G体验。面向高速移动场景，麒麟5G支持基于机器学习的自适应接收机，实现更精准的信道测量，下行速率提升19%，实现稳定的5G联接。

麒麟5G拥有最好的5G解决方案，另一方面功耗也有最好的表现。在下行速率1.2Gbps情况下的实测高于骁龙+外接5G。当然，因为麒麟5G先行使用了目前台积电最新制程，华为表示芯片的成本也会提高很多。

每年的IFA展会都是各家科技公司争发新品的时间点，就在2天前，三星抢先华为一步发布了内置5G基带芯片的「猎户座」芯片（Exynos）。它采用三星自家的8nmFinFET工艺制程，在芯片工艺上似乎还是慢了华为一拍。

三星称，猎户座不仅支持Sub-6GHz的5G网络，还支持5G毫米波频段。在Sub-6GHz频段，最高下行速率可达2.55Gbps，最高上行速率达1.28Gbps。但这一下载速率也引发了华为手机产品线副总裁李小龙的质疑。

不过这颗猎户座将于今年年底开始批量生产，落地到5G终端上的时间尚不明确，到底谁会是最先落地的5G芯片？

亿晶体管：你能买到的最强芯片

麒麟芯片的尺寸比上一代还要小，然而却集成了多达亿个晶体管——比去年麒麟的晶体管数量多出了近50%，这一数量也让它成为了目前手机上晶体管数量最高的芯片。

如此强大的算力，不仅是为了提升AI性能，也是为了能够塞进5G基带，并尽可能的降低功耗。艾伟表示此前麒麟+巴龙，以及高通的骁龙+X55外挂5G解决方案的推出说明计算芯片和通信芯片两边的技术都已解决。但若想降低功耗，则必须要使用更为先进的制程工艺。

「上一代的麒麟有69亿晶体管，麒麟已有亿晶体管。对于5G通信，问题在于怎样在不影响功耗的基础上解决问题。在这里如果效率不够高，晶体管数量还会更多，」艾伟表示。「而我们目前看到的很多5G芯片规格都不是旗舰机的规格，旗舰机用旧的工艺是支撑不了的。」

在芯片制程上，去年台积电就量产了7nm工艺，并已在苹果A12、麒麟等芯片上应用，相比之前的10nm工艺有了较大提升。但第一代7纳米工艺并没有使用EUV光刻机，在今年量产的第二代7nmEUV工艺上，华为麒麟再次抢占了首发位置。

这也就是为什么麒麟在没有使用最新Arm内核的情况下还提升了性能的原因：麒麟上的CPU、GPU型号依然沿用了CortexA76和Mali-G76，呈2大核+2中核+4小核设计，最高主频可达2.86GHz。与业界主流旗舰芯片相比，麒麟的单核性能高10%，多核性能高9%。能效方面针对不同大小的核精细调校，大核能效优12%，中核能效优35%，小核能效优15%。

麒麟5G搭载的16核Mali-G76GPU，与业界主流旗舰芯片相比，图形处理性能高6%，能效优20%。全新系统级SmartCache分流，支持智能分配DDR数据，在重载游戏等大带宽场景下带宽较上一代最高可节省15%，功耗可降低12%，进一步提升GPU能效。

「昨天，我看到了友商发布了一款PPT芯片，」余承东说道。「他们的GPU（Mali-G77）只有5核，我们的手机芯片是旗舰机的。」

拍照一直是华为手机领先的领域，麒麟搭载了全新KirinISP5.0，全球首发手机端BM3D（Block-Matchingand3Dfiltering）专业图像降噪技术。据余承东介绍，这是一种业内领先的图像降噪算法，此前主要被应用在单反相机上——从未出现在手机上。

「为什么其他厂家想不到？这主要是能力问题，」艾伟表示。「手机摄像头天生比单反相机的感光面积小，所以我们要必须使用专有的算法，并控制功耗，同时避免成像时间太长。麒麟全球首发的双域联合视频降噪技术，在空域视频降噪和时域降噪之外，又加入了频域降噪技术。几种方法叠加起来，我们获得了更好的效果。」

自年起，华为接连推出了全球首款搭载AI处理器的手机芯片麒麟，首款搭载双核NPU的麒麟，一直引领着旗舰手机处理器的创新之路。值得一提的是，华为这次还为来到发布会现场的每个人发了一本新书《熵减：华为活力之源》，其中首次披露了华为麒麟系列芯片的研发历程。

中美对于华为的芯片研发也有很大影响。前不久，在华为8月23日发布升腾芯片的活动中，徐直*就曾表示华为已经与三家EDA公司Synopsys、Cadence、Mentor停止了合作。接下来华为的芯片设计软件将会转向哪家？在活动中，艾伟表示：未来我们会自己做。

达芬奇NPU双大核+微核架构

麒麟首次在华为旗舰手机芯片中采用了自研的NPU，而且这次还采用了两个大核（昇腾Lite）一个小核（昇腾Tiny）的新设计，华为表示这是为了更为贴近手机的日常使用，为减小功耗而设计。通常，小核可以用来承载智能语音唤醒、语音识别、人脸解锁等任务的计算任务，同时也可以负责唤醒大核，并可以和大核共同进行AI任务计算。

在人脸识别的应用场景下，NPU微核的能效可达大核的24倍，让AI运算更省电。华为表示采用这种设计，手机每天的耗电量可以减少5%。

华为表示，新的NPU性能在AI算力上已经比麒麟提升了12倍，比麒麟提升了1.88倍。毫无疑问这是目前手机上最强的AI算力了。如此强大的算力可以支持实时的图像多实例分割：为多人物背景替换等应用。

在双大核NPU（AscendLite×2）的加持下，麒麟5G与业界其他旗舰AI芯片相比，性能优势高达6倍，能效优势高达8倍。无论是在业界典型的中载神经网络模型ResNet50（用于检测、分割和识别），还是在移动端更流行的轻载神经网络模型MobilenetV1（用于分类、检测、嵌入和分割）下，麒麟5G的FP16和int8性能和能效均达到业界最佳水平。

「达芬奇」是华为近期推出的神经网络处理单元新架构，最早出现于今年7月随荣耀9X推出的麒麟手机芯片上，随后又出现于今年8月的服务器级AI芯片昇腾上。达芬奇架是在Arm架构基础之上研发的AI硬件处理单元，其AI加速器（达芬奇NPU）采用了创新的3DCube针对矩阵运算进行加速，大幅提升了单位功耗下的AI算力。

具体来说，达芬奇NPU的每个AICore可以在一个时钟周期内实现个MAC操作，相比传统的CPU和GPU实现数量级的提升。

3DCube

目前常见的AI计算，其核心是矩阵乘法运算，计算时由左矩阵的一行和右矩阵的一列相乘，每个元素相乘之后的和输出到结果矩阵。在此计算过程中，标量（Scalar）、向量（Vector）、矩阵（Matrix）算力密度依次增加，对硬件的AI运算能力不断提出更高要求。

典型的神经网络模型计算量都非常大，这其中99%的计算都需要用到矩阵乘，也就是说，如果提高矩阵乘的运算效率，就能最大程度上提升AI算力——这也是达芬奇架构设计的核心：以最小的计算代价增加矩阵乘的算力，实现更高的AI能效。

同时，为了提升AI计算的完备性和不同场景的计算效率，达芬奇架构还集成了向量、标量、硬件加速器等多种计算单元。同时支持多种精度计算，支撑训练和推理两种场景的数据精度要求，实现AI的全场景需求覆盖。

在苏黎世理工推出的AIBenchmark上，麒麟也获得了非常高的分数——超越此前最高的麒麟接近一倍：

余承东表示，麒麟的AI计算表现是高通骁龙的%。

麒麟支持最多支持多种算子数量（骁龙支持多种），支持90%的视觉神经网络，同时也支持PyTorch、TensorFlow等框架。

推动万物互联：麒麟A1芯片

发布会上，余承东还介绍了一款物联网芯片：麒麟A1。

这是一款非常紧凑的芯片，旨在连接各种各样的物联网设备。

余承东同时介绍了使用A1芯片的华为Freebass耳机。

这是使用A1芯片的华为新一代无线耳机，在诸多方面有更好的使用体验。

5G+AI的未来体验

华为认为，只有到芯片制程进入到7纳米后5G才能够实用化。在麒麟等下一代芯片推出以后，未来的一年内将会出现多达1亿5G+AI用户，这将催生出一些我们现在还想象不到的新应用。不过，开发新形式的应用还需要整个行业的共同努力。

麒麟5G也将为HiAI2.0开放平台注入新的能量。余承东表示，华为提供了完备的IDE工具，AndroidStudio插件，其支持代码自动生成等功能。另外，华为开放了达芬奇架构IR工具，支持业界主流框架对接，实现更加完备的兼容性，让算法开发者们可以保持原有的开发习惯，在HiAI平台上自动获取加速能力。

「消费者买到手机的时候，实际上他买到了大量的服务——并不是说华为包打天下，」艾伟表示。「从历史上看，在2G时代，运营商逐步建网，我们还需要购买进口手机。在3G和4G时代，随着移动互联网的兴起，各类应用逐步发展起来，而国内的网络覆盖率现在已经远远高于世界上其他国家。我们享受的4G体验已经超过了其他国家。」

过去两年之间，华为麒麟的人工智能API调用次数已经超过了1.6万亿次，涉及拍照、旅行、购物、健康、教育、创意等多种不同领域。未来的5G会变成什么样，目前我们还不清楚。但中国是最有条件去探索的国家。至少在这个产业里，我们已经不用去看其他人是怎么做的，因为我们自己就是探索者了。中国未来或许会成为其他国家参考的榜样。

「我自年起进入通信行业，到现在已有26年，今天正在发生的情况还是头一次。」艾伟说道。

在未来，因为5G大大降低了通信延迟，并提升了带宽，我们可以实现端云协同的实时推理，全新的AI和AR应用将会进入我们的生活。

如此强大的芯片当然会出现在旗舰手机当中，余承东确认，麒麟两款芯片将会率先搭载于华为mate30系列手机上，而Mate30很快就会在9月19日于德国正式发布。

本文为机器之心报道，转载请联系本