信息技术：人工智能产业链深度解读.docx

资源描述

《信息技术：人工智能产业链深度解读.docx》由会员分享，可在线阅读，更多相关《信息技术：人工智能产业链深度解读.docx（8页珍藏版）》请在优知文库上搜索。

1、信息技术：人工智能产业链深度解读近几年来，人工智能行业飞速发展。麦肯锡预测人工智能可在未来十年为全球GDP增长贡献1.2个百分点，为全球经济活动增加13万亿美元产值，其贡献率可以与历史上第一次“工业革命中蒸汽机等变革技术的引入相媲美。从产业链来看，人工智能可以分为技术支撑层、基础应用层和产品层,各层面环环相扣，基础层和支撑层提供技术运算的平台、资源、算法，应用层的发展离不开基础层和技术的应用。人工智能产业性应用层体次方SI清更IIW资料来源：凯联资本投研部基础层分为硬件和软件。硬件即具备储存、运算能力的芯片，以及获取外部数据信息的传感器；软件则为用以计算的大数据。这里我们着重分析硬件部分的智能

2、芯片。1、智能芯片按技术架构来看，智能芯片可分为通用类芯片（CPU、GPU、FPGA）、基于FPGA的半定制化芯片、全定制化AS1.C芯片、类脑计算芯片(IBMTUreNorth)。对于绝大多数智能需求来说，基于通用处理器的传统计算机成本高、功耗高、体积大、速度慢，难以接受。因此以CPU、GPU、FPGAAS1.C和类脑芯片为代表的计算芯片以高性能计算能力被引入深度学习。AI半导体分类IntoqrafdAt1.pAM资料来源：谷歌，凯联资本投研部2017年各AI企业公开芯片敷据4MIA*M(W)GOPS)(GOPtZW)M*Xt4WRSIO1000100GPUWVDIAMwnTX1.OiNft

3、ftNN2402120090GPUWIDIATUUP1.OOCNNftRNNMwk1.dIa)45000250GPUNVIDIATeUMOCNWNNFMOa28120000500GPUWVID1.ATeUV1001.2MHzCNNftftNN5022000MOGPUNVK)IATeSteXCNN&RNNW*kSa20200000100OOGPUMVIDIAXMrCNWNNGoogK4086000021500ASIC2811ma700MK/CNWNNArtxxwStMeUnMnty2U645.25M1.4FPGAAtmGXI1.SOO1.SOmTMTT027842必2ASK65MInMMrwdX

4、40ASIC16nm资料来源：中国科学院自动化研究所，凯联资本投研部(1)GP大规模数据量下，传统CPU运算性能受限。遵循的是冯诺依曼架构，其核心就是：存储程序，顺序执行。随着摩尔定律的推进以及对更大规模与更快处理速度的需求的增加，CPU执行任务的速度受到限制。GPU在计算方面具有高效的并行性。用于图像处理的GPU芯片因海量数据并行运算能力，被最先引入深度学习。CPU中的大部分晶体管主要用于构建控制电路（如分支顼测等）和Cache,只有少部分的晶体管来完成实际的运算工作。GPU与CPU的设计目标不同，其控制电路相对简单，而且对Cache的需求较小，所以大部分晶体管可以组成各类专用电路和多条流水

5、线，使GPU的计算速度有了突破性的飞跃，拥有惊人的处理浮点运算的能力。GPU与CPU结构对比(2)FPGAFPGA（可编程门阵列，Fie1.dProgrammab1.eGateArray）是一种集成大量基本门电路及存储器的芯片，最大特点为可编程。可通过烧录FPGA配置文件来来定义这些门电路及存储器间的连线，从而实现特定的功能。此外可以通过即时编程烧入修改内部逻辑结构，从而实现不同逻辑功能。FPGA具有能耗优势明显、低延时和高吞吐的特性。不同于采用冯诺依曼架构的CPU与GPU,FPGA主要由可编程逻辑单元、可编程内部连接和输入输出模块构成。FPGA每个逻辑单元的功能和逻辑单元之间的连接在写入程序

6、后就已经确定，因此在进行运算时无需取指令、指令译码，逻辑单元之间也无需通过共享内存来通信。因此，尽管FPGA主频远低于CPU,但完成相同运算所需时钟周期要少于CPU,能耗优势明显，并具有低延时、高吞吐的特性。FPGA结构图资料来源：谷歌，凯联资本投研部(3)ASICASIC芯片是专用定制芯片，为实现特定要求而定制的芯片。除了不能扩展以外，在功耗、可靠性、体积方面都有优势，尤其在高性能低功耗的移动端。谷歌的TPU,寒武纪的GPU,地平线的BPU都属于ASIC芯片。谷歌的TPU比CPU和GPU的方案快30-80倍，与CPU和GPU相比，TPU把控制缩小了，因此减少了芯片的面积，降低了功耗。其缺点在

7、于开发周期长、投入成本大，一般公司难以承担。张量处理器（tensorprocessingunit,TPU）是GOog1.e为机器学习定制的专用芯片（AS1.C）,专为Goog1.e的深度学习框架TenSorF1.OW而设计。与GPU相比，TPU采用低精度（8位）计算，以降低每步操作使用的晶体管数量.降低精度对于深度学习的准确度影响很小，但却可以大幅降低功耗、加快运算速度。Goog1.e在2016年首次公布了TPU。2017年公布第二代TPU,并将其部署在GoogIe云平台之上，第二代TPU的浮点运算能力高达每秒180万亿次。AI芯片主要性能对比芯片奏型GPUFPGAASICNvidiaTita

8、nXVirtexU1.trasca1.e440Bitfury16nmARMCortex-A9灵活姓高高高中高高低中中高依高中低.舟*本低中高低制练搏名123加名321一M关伟达关钟尔、春灵必英特尔、ARM谷歌资料来源：学术论文，凯联资本投研部2、智能芯片架构架构创新是解决成本不断上涨的关键。随着市场对芯片计算能力的需求提高，芯片制造工艺也在不断提高，与之而来的是芯片制造成本不断涨高，解决这个问题的关键则是架构创新。目前AI芯片主要架构有CPU+GPU、CPU+FPGA、CPU+ASIC等。主流AI处理器的制程和架构AI汉用.0代冷*玲及970隼力。电IOnmFmFET4A7344A53*冬习.

9、AJa用14W总8454X1.1.Onm1.PCCPU：4xA73A4xAS3.GPU:AdrcnoX三汽QMCPU幡7.MMG7246.A1.a分.X41eEXynO$9610x文笑格的8楠8U,V(a*人晚除用DRIVEXevK吴偈理12mFNGPU1.oftInte1.14nm1284neuromorpNcCore.3个以MKM及朴，X86抬7*X1.iRK3399Probig.irmc大小MCpU.eKARM版*GPU2T860K8tr.xt习rtt.0X4NeuopotMt.”APU.I1.1.J1.4AI震构力井速Jtrttx财XtCtwMU华JIW028nm4CPU铉KBA.计算

10、机此4u0.MQ心40nm也十4一代BPU为期府Ir位XttRiftua0女资料来源：电子发烧友，凯联资本投研部3、智能芯片的应用深度学习主要分为训练和推断两个环节：在数据训练(training)阶段，大量的标记或者未标记的数据被输入深度神经网络中进行训练，随着深度神经网络模型层数的增多，与之相对应的权重参数成倍的增长，从而对硬件的计算能力有着越来越高的需求，此阶段的设计目标是高并发高吞吐量。推断(inference)则分为两大类一一云侧推断与端侧推断，云侧推断推断不仅要求硬件有着高性能计算，更重要的是对于多指令数据的处理能力。就比如Bing搜索引擎同时要对数以万计的图片搜索要求进行识别推断从

11、而给出搜索结果；端侧推断更强调在高性能计算和低功耗中寻找一个平衡点，设计目标是低延时低功耗。因此从目前市场需求来看，人工智能芯片可以分为三个类别:1)用于训练(training)的芯片：主要面向各大A1.企业及实验室的训练环节市场。目前被业内广泛接受的是CPU+GPU的异构模式，由于AMD在通用计算以及生态圈构建方面的长期缺位，导致了在深度学习GPU加速市场NV1.D1.A一家独大。面临这一局面，谷歌今年发布TPU2.0能高效支持训练环节的深度网络加速。我们在此后进行具体分析；2)用于云侧推断(inferenCeonC1.oud)的芯片：在云端推断环节，GPU不再是最优的选择，取而代之的是，目前3A(阿里云、Amazon、微软AZUre)都纷纷探索云服务器+FPGA模式替代传统CPU以支撑推断环节在云端的技术密集型任务。但是以谷歌TPU为代表的ASIC也对云端推断的市场份额有所希翼；3)用于端侧推断(inferenceondevice)的芯片：未来在相当一部分人工智能应用场景中，要求终端设备本身需要具备足够的推断计算能力，而显然当前ARM等架构芯片的计算能力，并不能满足这些终端设备的本地深度神经网络推断，业界需要全新的低功耗异构芯片，赋予设备足够的算力去应对未来越发增多的人工智能应用场景。我们预计在这个领域的深度学习的执行将更多的依赖于ASIC。

展开阅读全文