《AI芯片 技术发展方向及应用场景落地探讨.docx》由会员分享,可在线阅读,更多相关《AI芯片 技术发展方向及应用场景落地探讨.docx(11页珍藏版)》请在优知文库上搜索。
1、一、Al芯片诞生和发展的背景自1956年美国达特茅斯学院首次提出人工智能(AI)的概念以来,Al技术不断获得突破和快速发展,对算力的需求也不断增加。为了满足这种需求,AI芯片不断迭代升级,目前已成为算力提升的核心基础硬件。2006年以前,Al算法尚未出现突破性进展,且Al的训练数据主要以小数据为主。因此学术界和产业界对AI的算力需求主要由CPU提供,在这个阶段AI芯片发展较慢。2006年到2016年期间,A【算法在深度学习上获得突破,同时大数据、云计算等技术在这期间高速发展,进一步促进了Al在“大数据+深度学习”模式上的快速发展,随之而来的是Al性能的提升越来越依赖于计算能力的大小。研究人员发
2、现,相比于CPU,GPU具备并行计算特性,因此在深度学习等人工智能先进算法所需的“暴力计算”场景中更为高效。通过充分发挥GPU的优势,人工智能算法的计算效率可以大幅提升,这促使研究人员广泛采用GPU进行人工智能领域的研究和应用。2016年以后,随着Al技术的发展和商用化,Al芯片进入大发展阶段。2016年,美国谷歌旗下DeePMind团队开发的AI系统AlphaGo战胜韩国棋手李世石,引发全球AI热潮。此后,Al领域对于算力的需求不断增加。但GPU的高功耗和高价格限制了其在不同场景中的应用。为应对上述挑战,研究人员开始致力于开发定制化的AI芯片,以实现在加速AI算法运算的同时降低功耗和成本。自
3、此,大量初创企业和传统互联网巨头纷纷涌入Al芯片领域,推动了专用AI芯片的快速发展。2022年11月,美国OPenAl公司推出AI大模型ChatGPT,引发全球Al大模型发展浪潮,这一趋势进一步加大了Al领域对算力的需求,推动了Al芯片的投资和发展。二、Al芯片发展的技术方向广义而言,Al芯片指的是专门用于处理人工智能应用中大量计算任务的模块,即面向人工智能领域的芯片均被称为AI芯片。狭义的AI芯片指的是针对人工智能算法做了特殊加速设计的芯片1,2。从技术架构来看,Al芯片主要分为图形处理器(GPU)、现场可编程门阵列(FPGA),专用集成电路(ASIC)、类脑芯片四大类。其中,GPU为通用型
4、人工智能芯片,FPGA和ASIC是针对Al需求特征的半定制和全定制芯片,类脑芯片则是一种模仿人脑神经系统结构和功能的处理器。(一)图形处理器(GPU)。GPU最初是专门用来做图像处理的,如图像渲染、特效制作等,后因其优秀的矩阵计算能力和并发计算的架构,被广泛运用于Al领域。目前,GPU已成为Al领域最为成熟和广泛应用的通用型芯片,在数据中心、超级计算机等大型计算设施中备受青睐,在Al芯片市场中占据主导地位。在全球GPU厂商中,英伟达GPU技术一直处于领先水平,其融合了统一计算设备架构CUDA,构建起软硬件高性能计算的生态壁垒。2022年3月,英伟达在GPU技术大会(GPUTechnologyC
5、onference)上发布了基于新一代Hopper架构的高性能GPU芯片H100,其配备第四代TensorCore和TranSfOrmer引擎,与上一代产品相比,HlOO的综合技术创新可以将AI大型语言模型的速度提高30倍。(二)现场可编程门阵列(FPGA)。FPGA是一种灵活可编程的硬件平台,具备较高的计算性能和可定制性等优点,能够对AI算法进行加速和优化。在不断迭代的Al算法场景下,FPGA凭借其灵活性、低功耗和低延时的技术优点,在Al推理应用中表现出色。2022年11月,英特尔发布基于第二代英特尔HyperflexFPGA架构的AgilexFPGA芯片,其中整合引入了AI张量模块的增强型
6、数字信号处理(DSP)功能模块,能够更好支持AI/图像/视频处理以及可执行复数计算的DSP密集型应用。(三)专用集成电路(ASIC)。ASIC是针对用户对特定电子系统的需求而设计的专用集成电路,其计算能力和计算效率可根据算法需要进行定制,是固定算法最优化设计的产物。2016年,谷歌发布ASIC芯片TPUV1,主要应用于Al推理过程。自此,ASIC克服了GPU价格昂贵、功耗高的缺点,开始逐渐应用于Al领域,成为Al芯片的重要分支。2017年5月,谷歌发布TPUv2,相比于TPUV1,TPUV2最大的特色在于它既可以用于Al训练,又可以用于Al推理。2018年5月,谷歌发布TPUV3,可实现超过1
7、00PFLOPS的处理能力,几乎是TPUV2的8倍。2022年5月,谷歌又推出TPUV4,相比于英伟达AIoo芯片,处理速度最高快1.7倍,节能效率提高1.9倍。2022年3月,中国寒武纪公司推出训推一体Al加速卡MLU370-X8,搭载双芯片四芯粒思元370,集成寒武纪MLU-Link多芯互联技术,可应用于YoLOV3、Transformer等AI训练任务中,每张加速卡可获得200GBs的通讯吞吐性能,是PCIe4.0带宽的3.1倍,可高效执行多芯多卡AI训练和分布式AI推理任务。(四)类脑芯片。类脑芯片是结合微电子技术和新型神经形态器件,模仿人脑神经系统进行设计的Al处理器,旨在突破“冯诺
8、依曼瓶颈”,实现超低功耗和并行计算能力。类脑芯片被认为是后摩尔时代重要的发展方向之一,可能成为未来智能计算的突破口。2017年,研发出第二代异构融合类脑芯片“天机芯”,其具有高速度、高性能、低功耗的特点,制程为28纳米。相比于当时世界先进的IBM的TrUeNOrth芯片,其功能更全、灵活性和扩展性更好,密度提升20%,速度提高至少10倍,带宽提高至少100倍。2019年,基于“天机芯”研究成果的论文面向人工通用智能的异构天机芯片架构(TOWardSArtifiCialGeneralIntelligencewithHybridTianjicChipArChiteCtUre)作为封面文章登上自然(
9、NatUre)杂志。2021年4月,英特尔发布第二代神经拟态芯片Loihi2,其集成神经元达到100万个,是上一代的7.8倍,处理速度提高10倍。三、Al芯片的发展趋势芯片的发展和升级换代一直依赖于工艺、架构和应用三个方面的推动。在应用方面,随着AI技术的深入发展和广泛应用,不同的AI应用场景正推动AI芯片向专业化方向发展,以满足特定场景对性能、功耗和成本的需求。在技术方面,随着拟态神经元、量子等技术的发展,AI芯片正不断突破传统架构、工艺对性能的束缚,在不同的技术路径上进行探索创新,呈现出多样化的发展方向。(一)Al场景和算法推动Al芯片走向专业化在Al算法和应用场景的推动下,GPU、FPG
10、A和ASlC正呈现出以满足专业化需求为特征的发展方向。(I)GPU在处理大量并行计算任务中表现出色,且可通过加速设计更好地发挥Al潜能,但也存在功耗高、成本高等缺点。目前,GPU仍然是AI训练所需算力的主要硬件选择。(2)FPGA具有较强的计算能力、较低的试错成本和足够的灵活性,但其缺点在于价格较高、编程更杂,因此在半定制化AI场景中具备优势。(3)ASIC具有更高的处理速度和更低的能耗,并且可针对特定AI任务进行优化设计,从而在性能和能耗方面具备更好的综合素质,这使其在全定制化Al场景中表现优异。(二)类脑、量子技术推动Al芯片走向多样化随着拟态神经元、量子等前沿技术的发展,AI芯片逐渐发展
11、出类脑、量子等多样化技术路径的新型芯片,类脑芯片更是开始走向商用化。(1)类脑芯片拥有大规模并行计算、超低功耗和超低延迟等技术潜力,这些优势使其在未来Al应用场景中扮演重要的角色。未来,类脑芯片的一个重要发展方向就是围绕AI算法构建更加高效的存算一体计算系统,如开发更加高效的芯片架构、具备更多神经元的芯片等,以不断迭代升级Al芯片的综合性能。(2)量子芯片是基于量子力学原理构建的芯片,可推动人类计算能力呈指数级增长,形成“量子优越性”。有专家认为,量子芯片有望彻底解决Al算力瓶颈的问题。未来,随着AI的广泛应用,整个社会对于Al算力的需求和耗电量将会大幅增加,而量子芯片是解决上述一系列问题的潜
12、在方案。不过,当前量子计算机的发展还面临着如退相干等问题,导致当前量子芯片仍主要存在于实验室阶段,距离商业化较远。总的来说,类脑芯片和量子芯片作为新型芯片技术,拥有巨大的潜力,将在未来的Al和计算领域发挥重要作用,为我们带来更高效、更强大的计算能力。尽管Al芯片早已出现并在过去几年稳步向前发展,但随着ChatGPT的爆火,人工智能大模型成为时代的宠儿,Al算力变成战略资源,Al芯片市场容量的暴增成为了必然。预测显示,2024年全球Al芯片市场规模将达到670亿美元。那么,过去一年Al芯片有哪些新动态,新趋势?未来,Al芯片又有哪些新的设计和研究方向?在2023年12月的茶思屋技术专刊,从趋势分
13、析、市场动态、学术前沿、深度解读四个维度,来盘点大模型时代Al芯片的技术创新。趋势分析四大趋势引领Al芯片技术发展华为海思EDA首席架构师黄宇表示,当前AI芯片呈现四大技术发展趋势:AI芯片设计越来越定制化,以适应特定的AI工作负载和应用。边缘AI的增长,其中AI处理发生在本地设备而不是云上,推动了适用于边缘设备部署的高效低功耗AI芯片的需求。AI芯片提供商通常与云服务提供商合作,为云上的Al服务提供优化的软硬件解决方案。数据中心越来越多地整合了AI加速器,以处理不断增长的Al计算量。市场动态微软为ChatGPT自研Al芯片Athena据外媒ThelnfOrmation报道,微软公司正在研发代
14、号为“Athena(雅典娜)的Al芯片,为ChatGPT等Al聊天机器人提供技术支持。该研发项目由微软CEO萨蒂亚纳德拉(SatyaNadena)牵头,专为大语言模型的训练和推理而设计。Athena目前正由一小群微软和OPenAl员工进行测试,初代芯片可能基于台积电5nm工艺。研究公司SemiAnalysis分析师称,微软每年在Athena研发投入可能在1亿美元左右,如果顺利,微软将通过Athena将每颗芯片成本降低三分之一,从而为ChatGPT发展提供重要动力。后摩智能点亮业内首颗存算一体大算力AI芯片后摩智能成功点亮首款基于SRAM的存算一体大算力AI芯片,这也是业内首款大算力存算一体Al
15、芯片。据透露,该款芯片采用22nm工艺制程,样片算力达20ToPS,可扩展至200TOPS,计算单元能效比高达20ToPSzW“相比国际厂商12TOPSW的平均水准来说,后摩智能的此款芯片在能效比上优势明显,而且这是在不牺牲芯片灵活性的基础上做到的:该芯片不但支持市面上的主流算法,还可以支持不同客户定制自己的算子。学术前沿谷歌为TPU的可扩展性设计专用光学芯片TPUV4从一开始设计时,其目标就是极高的可扩展性,可以有数千个芯片同时加速,从而实现一个为了机器学习模型训练而设计的超级计算机。在谷歌的设计中,超级计算机的拓扑结构为:将4x4x4(64)个TPUv4芯片互联在一起形成一个立方体结构(c
16、ube),然后再把4x4x4这样的cube用连在一起形成一个总共有4096个TPUv4的超级计算机。在这样的拓扑中,物理距离较近的TPUV4(即在同一个4x4x4CUbe中的芯片)可以用常规的电互联(例如铜绞线)方法连接,但是距离较远的TPU之间(例如在CUbe之间的互联)就必须使用光互连,原因就在于在如此大规模的超级计算机中,芯片之间的数据互联在很大程度上会决定整体计算的效率。智能EDA浪潮即将来袭,ChatGPT如何助力设计芯片ChatGPT模型独有的代码生成能力极大地加速了设计芯片的速度。由传统EDA(电子设计自动化)向智能EDA的转型浪潮即将开启。IChatgPt可以在多方面代替人工芯片设计输入简洁行输入芯片设计人员只需要写出一 条PromPt就可以生成一个功 栖正确的硬杵.候选版本多样性能可调如祟对生成硬件的性能不第 满IL还可以让ChalgPt多次 生成,最终