《通过NPU和异构计算开启终端侧生成式AI.docx》由会员分享,可在线阅读,更多相关《通过NPU和异构计算开启终端侧生成式AI.docx(19页珍藏版)》请在优知文库上搜索。
1、Qulco2024年3月通过NPU和异构计算开启终端侧生成式Al不二设宴通口/产入艮麻人搭水工三床H字公助的产.12345678910目录ffi3处理器集成于SOC中的诸多优势3生成式Al甯曹多样化的处理H4NPU入门5高通NPU:以低功耗实理持久精定的高性趣Al6舁构计算:利用全部处理器支持生成式Al9高通AI引擎:面向生成式Al的业界领先异构计原X)7.1高通AI引擎中的处理器n高通闻异构1的系统方taaaMaMMaMaMMMaMMaMMMaMaaaaMaaMaaMBMMMaaaaMMMaaMaaBew127.3案例研究:使用异构计JI的虚拟化身Al个人助手12rvK,/力1jAiM;工,
2、Iffc8.1 第三代骁龙8的领先智能手机上Al性能M8.2 骁龙XElite的领先PC上Al性能15通过高通软件栈访问Al处理日16总结1 摘要KMAl变W1.RUBflMAIAHMR求在有多样化要求和计算求的垂我fWfll要专为ai*M酬的全新计H架构.这先需要一个!向Cai全新设计的神经网络处*Npu),喇用异构处理卷施合,比如中央处IUKCPU月Dlg形处MGPU)o通过结合NPU使用合透的处理国,异构计费能第实现佳应用性能、能效和电池续航,Il能全新增密的生成式Al体验。NPU专为实现低功耗加速Al推理而全新打造,并随器新Al用例、模型和需求的发展不断演进。优秀的NPU设计能够提供正
3、确的设计选择,与Al行业方向保持高度一致。高通正在助力让智能计算无处不在。业界领先的高通HeXagon-NPU面向以低功耗实现持续和定的高性能Al推理而设计。高通NPU的差异化优势在于系统圾解决方案、定制设计和快速创新。通过定制设计NPU以及控制指令集架构(ISA),高通能第快速进行设计演进和扩联,以解决瓶颈问题并优化性福HexoNpU是高通业界领先的异构计时架构一一高通Al引擎中的关域处理器,高通AI引擎还包括高通AdrenoGPU高通KrycT或高通OryOn.CPU、高通传感器中枢和内存子系统。这些处理器为实现协同工作而设计,能够在终端侧快速且高效地运行Al应用。我们在Al基准消试和实际
4、生成式Al应用方面的行业领先性能就是例通我们还专注于在全球搭载高通和骁龙平台的数十亿终J*设备上实现便断发和部署,斌能开发者Q利用3通Al软件栈(QuolcomEAJSSck),开发者可在高通硬件上创建、优化和部署Al应用,一次编写即可实现在不同产品和细分领域采用高通芯片组解决方案迸行部工高通技术公旬正在蛾能终端催生成式Al的规模化犷展。2 处理器集成于SoC中的诸多优势在不Bfi增长的用户需求、全新应用和终类以及技术进步的驱动下,计算架构正在不断演进。最初,中央处理裁(CPU)就能够完成大部分处理,但随着计算需求增长,对全新处理器和加速器的需求出现O例如,早期智靛手机系统由CPU和环线CPU
5、分布的分立芯片组成,用于2D图形、音籁、图像信号处理、螺寓调制解调器和GPS等处理。隔着时间推移,这些芯片的功能已经集QW为系统级芯片(SOC)的弟个芯片体(DlD中。例如,现代智能手机、PC和汽车SOC已集成多种处理器,如中央处理器(CPU)X图形处理器(GPU)和神鲤网络处理H(NPU)。m的这冷集成具有诏多优劣,包括改CHt值住能、能效、单位面积住能、芯片尺寸和成本。例如,在智能手机或笔记本电脑内安装分立的GpU或NPU会占用更多电路板空间,需要使用更多能源,从而影响工业设计和电池尺寸。此外,输入闻出引脚间的数据传输也将增多,将导致性能降低、能耗增加,以及采用更大电路板带来的额外成本和更
6、低僦享内存效率。对于智能手机、笔记本电脑和其他H要轻巧工业设计,具有产格功率和畋榭K和好J便携式终端,集成更为必ffo01:三feSCfffDCtiFtKaIHMHf”螺单位再91性能、工*计和林3 生成式Al需要多样化的处理器谈到A1.集成专用处理器并不新鲜。智能手机SoC自多年前就开始利用NPU改善日常用户体验,时Il晶色影像和音频,以及增强的连接和安全。不同之处在于,生成式Al用例需求在有着多样化要求和计需求的垂直领域不断增加。这丝用例可分为三类:1 .按IB型用例由用户触发,需要立即响应,包括照片/视频拍握、图像生成/编辑、代码生成、录音转录涌要和文本(电子邮件、文档等)创作/摘要G这
7、包括用户用手机输入文字创作自定义图像、在PC上生成会议摘要,或在开车时用语的询最近的加油站。2 .持续型用例运行时间较长,包括语音识别、游戏和视舞的幽分册率、视频通话的音频/视频处理以及实时tn译。这包括用户在海外出差时使用手机作为实时对曲译器,以及在PC上玩游戏时逐帧运行超级分辨率。3 .泛在型用例在后台持续运行,包括始终开启的预测性Al助手、基于情境感知的Al个性化和高级文本自动填电例好机可以根据用户的对话内容自动建议与同事的会议、PC端的学习Mi导助手则靛够根据用户的答题情况实时调整学习资凤这些Al用例面临两大共同的关键挑At第一,在功耗和散热受限的终端上使用通用CPU和GPU版务平台的
8、不同箫求,璀以满足这些Al用例产苛且多样化的计算需求。第二,这些Al用例在不断演进,在功能完全固定的硬件上部詈这些用例不切实际。因此,支持处理多样性的异构计将架构能够发挥每个处理器的优势,例如以Al为中心定制设计的NPU,以及CpU和GPU)短个处理器IB长不同的任务:CPUIfi长顺序控制和即时性,GPU适合并行数据流处理,NPUIS长标、向和张数学运算,可用于核心Al工作负S1.CPU和GpU是通用处理器。它们为艮活性而设计,非常易于编程,“本职工作”是负责运行操作系统、游戏和其他应用等。而这些“本职工作”同时也会髓时限JWteil运行Al工作负就的可用容NPU专为Al打造,AI就是它的本
9、职工作”。NPU降低部分易编程性以实现更高的峰值性能、能效和面积效率,从而运行机器学习所需的大窠法、加法和其他运算。通过使用合适的处理器,异构计算能第实现最佳应用性能.能效和电池续航,能全新增强的生成式Al体%4 NPU入门NPU专为实现以低功耗加速AI推理而全新打造,并随着新Al用例、模型和需求的发展不断演逐对整体SOC系统设计、内存访问模式和其他处理繇构运行Al工作负费时的瓶颈迸行的分析会深刻影响NPU设计。这些Al工作负栽主瞿包括由标、向量和张数学组成的神经网络层计算,以及Hl后的非线性激活函数。在2015年,早期的NPU面向音频和语音Al用惭设计,这些用例基于简单卷积神经网络(CNN)
10、并且主要需要标3和向数学运算。从2016年开始,拍照和视频Al用例大受欢迎,出现了基于Transformer循环神经网络(RNN)、长短期记忆网络(1.STMM更高维度的卷积神经网络(CNN)等更复杂的全新横型。这些工作负裁需要大张数学运分,因此NpU增加了张星加速鬻和卷积加速,让处理效率大幅提升。有了面向张星乘法的大共享内存配置和专用硬件,不仅能够显著提高性能,而且可以降低内存带宽占用和能耗O例如,一个NXN矩阵和另一个NXN矩阵相乘,需要读取ZN2个值并进行22次运食(单个柒法和加法)a在张加速器中,每次内存访问的计算操作比率为N:1,而对于标和向量加速器,这一比率要小得多。在2023年,
11、大语言模型(1.1.M比如1.lamQ27B,和大视觉模型(1.VM)一比如StabieDiffUSionlS能的生成式Al使得典型模里的大,J嘤升超过了一个数级。除计Il需求之外,还需要重点考虑内存和系统设计,通过Jt少内存数据传Ia以提高性能和能效。未期计将会出现对更大规模模型和多模态模型的需求。02WW.不得JWaI随Al持城快速演进,必很在住能、功耗、效率、可想程性和面积之间进行权懦取含。一个专用的定制化设计NPU能够做出正确的选择,与AI行业方向保持高度一致。5 高通.NPU:以低功耗实现持久稳定的高性能Al经过多年研发,高通HeXaQonNPU不断演进,能够满足快速变化的Al需求。
12、2007年,首款HeXgOnDSP在骁龙平台上正式亮相一一DSP控制和标量架构是高通未来多代NPU的用叱。2015年,骁加820处理器正式推出,集成苜个高通AI引军,支持成像、音频和传感器运费,2018年,高通在骁龙B55中为HeXogOrlNPU增加了HeXQgOn张量加速线。2019年,高通在骁龙865上扩国了终端例Al用例,包括AI成像、Al视频、Al语音和始终在线的感知功能。as*2015年发布的登龙8203次WiiA/引I1.2020年,高通凭借HeXOgonNPU变35性的架构更新,实现了重要里程碑。我们融合标、向量和张加速器,带来了更佳性能和能效,同时还为加速器打造了专用大共享内
13、存,让共享和迁移数据更加高效O合AliMtM构为育出凄的NPU架构定了整实tto2022年,第二代骁龙8中的HeXOgonNPU引入了众多重要技术提升。专用电源传输轨施够根据工作负基动态适配电源供应。格切片推理利用HeXaQOnNPU的标加速能力,将神经网络分割成多个能够独立执行的微切片,消除了高达K)余层的内存占用,能够最大化利用HeXOQ8NPU中的标、向和张加速器并降低功耗O本地4位整数(INT3运算支持旋塔提升能效和内存带宽效率,同时将INT4层和神经网络的张星加速吞吐提高一倍。TrQnSfOrnWf网络加速大幅加快了应用于生成式Al的多头注意力机制的推理速度,在使用MobiIeBER
14、T模型的特定用例中能芾来高达4.35倍的惊人Al性能提升。其他特殊硬件包括改进的分组卷积、激活函数加速和张加速器住能。但矍曲_中的HeXgonNPU是高通面向生成式Al最新、也是目前最好的设计,为持续Al推理带来98%性能提升和4%籍效提升、它包括了跨整个NPU的1架构升级O微切片推理迸一步升级,以支持更高效的生成式Al处理,并降低内存带宽占用。此外,HeXaaOn张星加速甥增加了独立的电源传输轨道,让需要不同标、向和张星处理规模的Al横里能婚实现最高性能和效率。大共享内存的带宽也堵加了一他基于以上提升和INT4件如速,H更浮渣碎NPUJ成为面向终储催生成式Al大模型推理的领先处理器。,与前代
15、平台相比,升级的傩切片推理88架构升级峰值性掂内椁加速JS专用电源高通HexagonNPU更大带宽进入2倍带克张加速88更高主算图4.奈二二尸彳8的HemgOnNPU开缭以幽IEjbMt先触高通NPU的差异化优势在于系统级解决方案、定制设计和快速创新。高通的系统级解决方案考个处“m构、SoCKttKWlDttfHMHftlli以打造隹Al助Xo要在增加或修改硬件方面做出恰当的权衡和决策,需要发现当前和潸在的瓶颈。通过跨应用、神经网络模型、鼻法、软件和硬件的全栈Al研究与优化,高通能尊做到这一点O由于靛够定制设计NPU并控制旨令集架构(ISA),高通架构师能筋快速进行设计演进和扩展以解决瓶颈问融。这一迭代改迸和反馈循环,使我们能够基于Ia新神经网络架构持续快速增强高通NPU和高通Al软件栈。基于高通的自主Al研究以及与广大Al社区的合作,我们与AI横型的友展保持同步。高通具有开展基础性Al研究以支持全栈终端mAl开发的独特豌力,可Kl能产品快速上市,并困绕终