本帖最后由 愚人节不愚 于 2020-7-1 20:30 编辑
在业界公认的苏黎世联邦理工学院推出的AI Benchmark榜单中,去年的麒麟810霸榜前三,今年的麒麟990 5G智能芯片排榜第一。麒麟990 5G再次登顶AI智能。究竟是什么神秘的技术让麒麟芯片拥有这么强大的AI性能呢?别着急!跟着愚人一起往下看。
华为AI芯片(秘密武器)之达芬奇架构
跟着愚人听一听达芬奇架构是什么
达芬奇架构是基于ARM架构,在ARM架构基础之上研发的NPU;NPU指的是神经元网络,相当于华为建立了一个独立的AI硬件处理单元。
跟着愚人听一听达芬奇架构背景
华为曾预测,到2025年全球的智能终端数量将会达到400亿台,智能助理的普及率将达到90%,企业数据的使用率将达到86%。可以预见,在不久的将来,AI将作为一项通用技术极大地提高生产力,改变每个组织和每个行业。基于这样的愿景,华为在2018全联接大会上提出全栈全场景AI战略。作为重要的技术基础,AI芯片在其中发挥着重要作用,而华为也基于AI芯片提供了完整的解决方案,加速使能AI产业化。为了实现AI在多平台多场景之间的协同,华为创新设计达芬奇计算架构,在不同体积和功耗条件下提供强劲的AI算力。
跟着愚人听一听达芬奇架构优势
达芬奇架构,是华为自研的面向AI计算特征的全新计算架构,具备高算力、高能效、灵活可裁剪的特性,是实现万物智能的重要基础。具体来说,达芬奇架构采用3D Cube针对矩阵运算做加速,大幅提升单位功耗下的AI算力,每个AI Core可以在一个时钟周期内实现4096个MAC操作,相比传统的CPU和GPU实现数量级的提升。
同时,为了提升AI计算的完备性和不同场景的计算效率,达芬奇架构还集成了向量、标量、硬件加速器等多种计算单元。同时支持多种精度计算,支撑训练和推理两种场景的数据精度要求,实现AI的全场景需求覆盖。
跟着愚人看一看达芬奇架构硬实力
科普1:常见的AI运算类型有哪些?
在了解达芬奇架构的技术之前,我们先来弄清楚一下几种AI运算数据对象:
标量(Scalar):由单独一个数组成 向量(Vector):由一组一维有序数组成,每个数由一个索引(index)标识 矩阵(Matrix):由一组二维有序数组成,每个数由两个索引(index)标识 张量(Tensor):由一组n维有序数组成,每个数由n个索引(index)标识
其中,AI计算的核心是矩阵乘法运算,计算时由左矩阵的一行和右矩阵的一列相乘,每个元素相乘之后的和输出到结果矩阵。在此计算过程中,标量(Scalar)、向量(Vector)、矩阵(Matrix)算力密度依次增加,对硬件的AI运算能力不断提出更高要求。
典型的神经网络模型计算量都非常大,这其中99%的计算都需要用到矩阵乘,也就是说,如果提高矩阵乘的运算效率,就能最大程度上提升AI算力——这也是达芬奇架构设计的核心:以最小的计算代价增加矩阵乘的算力,实现更高的AI能效。
科普2:各单元角色分工揭秘,Da Vinci Core是如何实现高效AI计算的?
在2018年全联接大会上,华为推出AI芯片Ascend 310(昇腾310),这是达芬奇架构的首次亮相,Ascend 310相当于AI芯片中的NPU。
其中,Da Vinci Core只是NPU的一个部分,Da Vinci Core内部还细分成很多单元,包括核心的3D Cube、Vector向量计算单元、Scalar标量计算单元等,它们各自负责不同的运算任务实现并行化计算模型,共同保障AI计算的高效处理。
3D Cube矩阵乘法单元:算力担当
刚才已经提到,矩阵乘是AI计算的核心,这部分运算由3D Cube完成,Buffer L0A、L0B、L0C则用于存储输入矩阵和输出矩阵数据,负责向Cube计算单元输送数据和存放计算结果。
Vector向量计算单元:灵活的多面手
虽然Cube的算力很强大,但只能完成矩阵乘运算,还有很多计算类型要依靠Vector向量计算单元来完成。Vector的指令相对来说非常丰富,可以覆盖各种基本的计算类型和许多定制的计算类型。 Scalar标量计算单元:流程控制的管家 Scalar标量运算单元主要负责AI Core的标量运算,功能上可以看作一个小CPU,完成整个程序的循环控制,分支判断,Cube、Vector等指令的地址和参数计算以及基本的算术运算等。
科普3:3D Cube计算方式的独特优势是什么?
不同于以往的标量、矢量运算模式,华为达芬奇架构以高性能3D Cube计算引擎为基础,针对矩阵运算进行加速,大幅提高单位面积下的AI算力,充分激发端侧AI的运算潜能。以两个N*N的矩阵A*B乘法为例:如果是N个1D 的MAC,需要N^2(即N的2次方)的cycle数;如果是1个N^2的2D MAC阵列,需要N个Cycle;如果是1个N维3D的Cube,只需要1个Cycle。
华为创新设计的达芬奇架构将大幅提升算力,16*16*16的3D Cube能够显著提升数据利用率,缩短运算周期,实现更快更强的AI运算。这是什么意思呢?举例来说,同样是完成4096次运算,2D结构需要64行*64列才能计算,3D Cube只需要16*16*16的结构就能算出。其中,64*64结构带来的问题是:运算周期长、时延高、利用率低。
达芬奇架构的这一特性也完美体现在麒麟810上。作为首款采用达芬奇架构NPU的手机SoC芯片,麒麟810实现强劲的AI算力,在单位面积上实现最佳能效,FP16精度和INT8量化精度业界领先,如今,麒麟芯片更是升级到了990 5G,AI性能更加强大。
总结:从硬件角度,达芬奇架构是一个混合型的设计,或者叫核内异构系统。通过集成scalar、vector和cube三类运算单元分别支持不同的AI算法场景,同时吸收了之前深度学习加速器的成功经验,这也是作为后发者的优势。全场景的通用AI处理器中,达芬奇和同领域的寒武纪、GPU的硬件结构有非常多的相似之处,对深度学习的支持也是各有优劣。而华为最大的优势其实是作为系统供应商的软硬件结合设计的能力,通过云端收集数据进行反馈调整,反复迭代升级,不断完善硬件对基本算子的良好支持和软件编译的高效性和友好性,最终形成生态闭环。期待华为在AI领域再创辉煌。
素材来自网络(知乎)
|