《分布式异构智能算力的管理和调度技术研究报告2023.docx》由会员分享,可在线阅读,更多相关《分布式异构智能算力的管理和调度技术研究报告2023.docx(23页珍藏版)》请在优知文库上搜索。
1、一、研究背景3二、异构算力的发展和应用场景需求4(一)异构算力的发展情况4(二)异构算力的主要应用场景7三、分布式异构算力管理和调度的关键技术能力9(一)异构算力的虚拟化和池化10(二)分布式异构算力的调度能力13(三)分布式异构算力的度量和标识16四、当前业界技术实现情况17(一)中国移动智算体系实现异构资源池化18(二)浪潮AlStation平台实现异构资源管理调度19(三)新华三傲飞平台实现异构资源管理调度22五、总结与展望24参考文档26一、研究背景随着我国数字经济规模总量的不断攀升,实体经济、数字经济和信息服务的深度融合正加速产业数字化和数字产业化变革。算力作为承载信息数据的重要基础
2、设施,已成为全社会数字化转型的重要基石。根据中国信息通信研究院最新发布的中国算力发展指数白皮书(2023年)显示,至2023年我国智能算力规模达到178.5EFk)Ps,增速为72%,在我国算力占比达59%,成为算力快速增长的驱动力;据IDC等机构预测,至2025年,新增数据量180ZB,其中80%的增长来自于文本、图片、语音、视频等非结构化的数据。随着人工智能、元宇宙、高性能计算等领域的发展,激发了更多智能数据处理的需求和场景,对新型智能算力的需求激增。*lWiAjt/AWm. IDC,Grtner.Wl(O本研究围绕典型智能计算应用对异构算力的协同及调度需求,研究泛在异构算力参与训练或推理
3、过程的协同需求、调度需求,研究泛在异构算力参与训练或推理过程的协同需求,包括异构算力类型、规模要求、性能要求、网络要求、数据传输要求等,分析异构算力协同的应用场景等特点,考虑同数据中心、跨数据中心、跨云边端多级、池化和非池化异构算力并存等各种场景下,算力协同的需求及可行性。研究分析异构算力资源分类整合、池化重构和智能分配等技术方案。研究分布式异构算力资源管理技术方案,包括管理跨数据中心、边缘及端侧的GPU、FPGA等异构算力设备,已虚拟化或池化的异构硬件,研究对异构算力资源进行标识和监控的方案,对算力进行细力度切分供给的技术方案,研究对计算任务进行异构算力匹配和调度的技术方案。包括如何匹配差异
4、化的计算任务到相应的异构算力节点,如何支持异构算力资源高效和细粒度分配,基于应用场景的负载差异性,建立面向多样化异构算力资源和上层多场景需求的多元异构算力统一调度架构,统一资源实时感知,抽象资源响应和应用调度。研究分布式AI框架支持分布式异构算力的管理和调度技术方案。二、异构算力的发展和应用场景需求(一)异构算力的发展情况异构算力通常是指CPU、GPU、FPGA、ASIC等多种不同的算力处理体系,能够满足不同场景中的应用需求,实现计算效力最大化。异构算力通常以Al芯片的形态被集成在计算机中,Al芯片是AI算力的核心基础设施之一。近年来,面向特定领域体系结构的定制化芯片也不断涌现,已成为AI算力
5、发展的主流趋势。目前异构算力主要有以下类型:GPU:英伟达GPU的发展可以追溯到1999年,当时英伟达发布了第一代GPU架构GeFOrCe256,标志着GPU时代的开始。随后,英伟达的GPU架构不断升级,从TNT、Rage到GefOrCe256,再到TeSIa、FermiKeplerMaXWen等。随着GPU技术的不断发展,英伟达的GPU架构也不断升级,以适应日益增长的计算需求,GPU架构也不断推动着图形渲染、人工智能和高性能计算等领域的发展。近年来,英伟达还发布了多款强大的GPU芯片,如TUring、AmPere等,这些芯片都具有高性能的计算能力,为各种应用提供了强大的计算支持。2022年3
6、月,英伟达推出了HGXHIo0,拥有最高可达18432个FP32(单精度)和9216个FP64(双精度)的CUDA核心,辅以576个第四代TenSor核心。2023年11月,英伟达再次升级其GPU产品线,发布了HGXH200。这款新的AI计算平台在原有HlOO的基础上进行了全面升级,主要升级包括提供141GB的下一代HBM3e内存,这使得H200成为了英伟达目前最强的人工智能芯片。APU:APU(AcceleratedProcessingUnit)中文名字叫加速处理器,AMD将中央处理器和独显核心做在一个晶片上,它同时具有高性能处理器和最新独立显卡的处理性能,支持DXIl游戏和最新应用的“加速
7、运算”,大幅提升了电脑运行效率。从2010年以来,AMD相继推出GCN架构、RDNA架构、RDNA2架构、RDNA3架构、CDNA架构和CDNA2架构。最新一代面向高性能计算和人工智能CDNA2架构于架构采用增强型MatrixCore技术,支持更广泛的数据类型和应用,针对高性能计算工作负载带来全速率双精度和全新FP64矩阵运算。基于CDNA2架构的AMDInstinctMI250XGPUFP64双精度运算算力最高可达95.7TFLOPso TPU:TPU是由Google推出的人工智能芯片TenSOrProcessingUnito之后又陆续推出了TPUv4等若干代TPU和TPUEdge。TPU是
8、计算神经网络专用芯片,是google为了为优化自身的TensorFlow机器学习框架而打造。 FPGA:FPGA作为一种灵活可编程的硬件平台,具备较高的计算性能和可定制性,能够提供对Al算法的加速和优化;在Al应用中,可以用于实现神经网络加速器、高性能计算单元等,为计算密集型的AI任务提供高性能和低延迟的计算能力。例如,英特尔Stratix10NXFPGA就是专门为AI设计的,具有Al张量块,包含密集的低精度乘法器阵列,针对矩阵和向量乘法进行了调整,可执行INT4、INT8、BIoCkFP12或BIoCkFP16操作。此外,这些张量块可以级联在一起,支持大型矩阵。 ASIC:与更通用的芯片(如
9、CPU和GPU)相比,ASIC芯片的定制化提供了更高的效率。ASIC的兴起引起了NVIDIA、AMD和英特尔等科技巨头的关注。行业可能会采用混合技术来推动创新和进步。例如,NVIDIA一直在开发自己的Al专用芯片,称为TenSOreOres。随着亚马逊、微软和百度等科技巨头探索定制ASIC,这项新技术显然将在Al处理中发挥重要作用。ASIC领域还持续在可扩展性、可负担性和实施方面开展攻关。DPU:DPU服务于云计算,主要作用是提升数据中心等算力基础设施的效率,减少能耗浪费,进而降低成本。随着数据中心建设、网络带宽和数据量急剧增长,由于CPU性能增长速度放缓,为了寻求效率更高的计算芯片,DPU由
10、此产生。例如,英伟达将MeIkmOX的ConneCtX系列高速网卡技术与自己的已有技术相结合,于2020年正式推出了两款DPU产品BkIeFiekI-2DPU和BlueField-2XDPU。(二)异构算力的主要应用场景异构计算利用不同类型处理器的独特优势,例如GPU的并行计算能力和FPGA的定制化硬件设计能力,从而提高计算性能和功率效率。它在许多领域都有广泛的应用,如人工智能领域的深度神经网络训练,科学计算领域的模拟和数据处理,物理仿真和计算机视觉等。此外,异构计算还可应用于移动设备和嵌入式系统等领域,在这些领域中,功率和性能都是非常重要的因素。异构计算可以让这些设备更加智能化,同时提高它们
11、的性能和功率效率。总结来看,异构算力的主要应用场景包括:机器学习和深度学习:异构计算可以利用Al算力的并行处理能力,加速机器学习和深度学习的训练和推理过程。例如,使用GPU进行大规模的矩阵运算,可以大幅提高训练速度和模型准确率。高性能计算(HPC)等科学计算场景:在科学研究、工程仿真等领域,需要处理的数据量巨大,传统的CPU计算已经无法满足需求。异构计算可以利用CPU和GPU联合的方式,实现更高的计算性能和效率。图形处理渲染和游戏开发:异构计算可以利用Al算力的并行处理能力,实现图像的实时渲染和处理。例如,在游戏开发中,利用GPU卡加速可以实现更加真实的光影效果和更高的帧率。物联网(IoT):
12、物联网设备数量庞大,需要进行大量的数据处理和管理。通过异构计算,可以实现物联网设备的智能化管理和数据处理,提高物联网应用的效率和可靠性。异构计算可以利用CPU+GPU或者CPU+FPGA+GPU等异构算力联合的方式,实现更高的计算性能和效率。区块链:区块链技术需要保证交易的安全性和可靠性,同时需要处理大量的交易数据。异构计算可以利用FPGA进行加密计算,提高区块链的运算速度和安全性。除了上述典型的应用场景外,不同行业对异构智能算力的整体需求也呈现差异化分布的特点。来源:中国信息通信研究院、IDC据信通院与IDC的最新统计,由于互联网行业对数据处理和模型训练的需求不断提升,是智能算力需求最大的行
13、业,占智能算力53%的份额;服务行业由于快速从传统模式向新兴模式发展,算力份额占比位列第二;政府、电信、制造、金融、教育等行业分列第三到八位。三、分布式异构算力管理和调度的关键技术能力异构算力多元泛在,对算力的管理平台提出了新的挑战。异构算力管理平台实现多种异构算力的管理和调度,并为智算应用提供应用层的推理和训练技术栈的支持,主要实现以下主要核心能力: 动态资源管理:管理CPU、GPU、FPGA等异构算力的注册和接入,算力拓扑信息,算力实时状态信息,实现对算力资源的虚拟化和池化的资源重构,提供细粒度的资管管理和隔离; 资源调度编排:实现异构算力节点的灵活调度,实现任务与节点资源的灵活编排,多以
14、容器技术基于KUberneteS定制化研发实现对任务和资源的灵活编排调度,为上层功能模块提供资源能力;异构算力适配:提供适配异构算力的从底层驱动到应用层框架整体技术栈的适配支持,以保证应用在不同算力节点上能弹性迁移调度,例如支持不同异构硬件的算子库、编译器、开发工具等;支撑智算的平台能力:基于底层异构算力提供智算应用的数据处理、Al训练推理框架、模型服务等功能支持。分布式异构算力的管理和调度是分布式异构算力平台的核心功能,其包括的关键技术主要包括:(一)异构算力的虚拟化和池化异构算力虚拟化和池化是指在计算环境中利用不同类型的计算资源(例如CPU、GPU、FPGA等)进行虚拟化和资源的池化管理。
15、对于异构资源的虚拟化、池化等资源重构技术方案,将整合硬件资源,形成同类资源池,提高计算资源的利用率和灵活性,从而更好地满足不同应用的需求。异构算力虚拟化指的是将不同类型的计算资源进行虚拟化,使其能够被多个应用程序或用户共享和管理。这种虚拟化技术可以提高计算资源的利用率和灵活性,比如将GPU资源虚拟化供应用程序使用,以满足不同应用对算力的需求。而池化则指的是将异构计算资源汇聚到一个统一的资源池中,通过统一的管理和调度,按需分配给不同的应用程序或用户。这种池化的方式能够提高整体的资源利用率,降低资源浪费,同时也能够更灵活地满足不同应用对算力的需求。目前典型的GPU虚拟化的技术实现方案包括MIG和v
16、GPUoMIG(Multi-InstanceGPU)作为AmPere以及之后的HoPPer架构推出的新特性,解决了像AmPere、HoPPer这种大GPU在集群服务应用时一类需求GPU切分与虚拟化。MIG分割的每个GPU实例都有完整的独立的内存系统L2缓存、内存控制器、DRAM地址总线等,这样的切分方式也同时以利于容错和吞吐率以及延迟的预测。MIG的基本方法就是能完成资源的分块+组合,即对物理卡上能用的物理资源进行切分,包括系统通道、控制总线、算力单元(TPC)全局显存、L2缓存、数据总线等;然后将分块后的资源重新组合,让每个切分后的子GPU能够做到数据保护、故障隔离独立、服务稳定。MlG可以动态创建和销毁,但是对于没有被分配的GPU是无法被