《2024人工智能 计算设备调度与协同第2部分:分布式计算框架.docx》由会员分享,可在线阅读,更多相关《2024人工智能 计算设备调度与协同第2部分:分布式计算框架.docx(19页珍藏版)》请在优知文库上搜索。
1、人工智能计算设备调度与协同第2部分:分布式计算框架前言II1范困12规范性引用文件13术语和定义14缩珞语25慨述25.1 总体框架25.2 适用性36计匏设备技术要求36.1 云侧设备36.2 边缘设备46.3 终端设备17分布式计算力同技术要求57.1 架构57.2 通用要求57.3 组件要求67.4 云云协同要求87.5 云边培协同要求97.6 多端协同要求118云边端分布式计算怫同接口128.1 边修节点管理128.2 部署及更新M8.3 任务运行管理17参考文献19人工智能计算设备调度与协同第2部分:分布式计算框架1范围本文件敬立了人工智能计算设备分布式计算的架构,规定了功能和性能技
2、术要求,定义了分布式计算协同接口.本文件适用于用于分布式人工智能计算的系统设计、开发和冽试.2规葩性引用文件下列文件中的内卷通过文中的规范性引用而构成本文件必不可少的条款.其中,注I1.期的引用文件,仅该日期对应的版本适用于本文件:不注日期的引用文件,其G新版本(包括所有的修改单)适用于本文件.GB/TXXXXX.1-202X人工智能计算设备调度与协同第1部分:虚拟化与调度系统技术规范GB/TAAA-2O2X人工智能异构人工智能加速器统一接口3术语和定义GB/T41867-2022.GB/T42018-2022.GB/TXXXXX.1.-202Xfi)GBTAAA-2O2X中界定的以及下列术语
3、和定义适用于本文件。分布式机器学习distributedmachine1.earning一种机器学习的方法或过程,利用互联附笫作为首选通信蚊体,在不同于系统上完成同一个机潞学习任务,注1:互联网络可包含对域互联网及广域互联网,注2:分布式训练任务不同于系统上砂同完成个训I城任务.注3分布式推理任务,不同下廉统办问完成个推理任务.来源:ISO/1EC2382:2015,2178059.有修改3.2联邦机器学习federatedmachine1.earning一种机器学习方法或过程,能it多个参加者协作构建及使用机渊学习模型而不期谑参加者所拥有的原始数据或私有数据.来曲IEEE3652.1.3.1
4、3.3增量学习incrementa1.1.earning一种分为多个阶段的自适应学习方法,其中在前胆阶段学得的知识被转化为适当形式,以便为后第阶段的新知识提供域础。注1:在机JS学习儆域的某些文赋里.州81学习称为“(机涉学习模型的)f1.ifit(ff)训练-.注2:模型热调是埒Irt学习的方式之一.来源:ISO/IEC2382:2015.2123002.有修改3.4边壕计算edgecomputi11E一种分布式计算方法或过程.其中处理及存储过程发生在分布式系统的边缘.注:计。发生旅近边缘的程度按系统的需求定义设定.来源,ISO/IECTR23188:2020.3.1.33.5集合通信co1
5、.Iectivecommunication-H1.划信模式,其所传递数据在一组处理器单元(称为节点)上处理,其进程或计算节点之间协同工作以进行数据交换和同步.注:一次通倡一股包仃多个接受并和发送行.4缩略语下列缩略出适用于本文件.AI:人工智能(Artificia1.InteIIiKenCe)CPt:中央处理的元(Centra1.ProcessingUnit)FI1GA:现场可编程设排门阵列(Fie1.dProgramHab1.eGateArrayGP1.s图形处理的元(GraphicsProcessingUnitNPU;神经网络处理单元(NeUworkProcessingUnit)RDMA:
6、远程H按内存访问(RemoteDirectMmyAccess)RoCEs基于融合以太网的远程直接内存访问(RDMAoverConvergedEthernet)SS1.s安全套按字层(SecureSockets1.ayer)5概述5.1 总体框架AI分布式计算协同的总体框架见图1,包含:a)提供A1.任务生命周期内的协同计豫支持(如统一资源池化、分配、调度等);b)支持设备(如云/边/端设备)的分布式运行环境:O实现不同物理都詈形态的设备间的通信、控制及任务管理:t曰*eHWitveaCR1.HatIgHS-IIS2A1.计算设备分布式计算架构注I虚纹板用的钝分是G8XXXXX.1202X中块定
7、的内容,也足分布式管理架构中的必番汛件之.7.2通用要求AI计算设备分布式计算由同察体符合以下要求;a)应能管理机潺学习算法的运行环境配置,包括支持云恻设得、边缘设备和终端设的:b)支持应用在云侧、边例或端恻的AI计算设徐上的运行,满足以下要求:1)应支持云偏模型裁剪、压缩和优化;2)宜支持联邦学习:3)宜支持云内、云边或云端侨同推理;4)应支持云仰分布式训练,宜支持边缘网分布式训练:5)宜支持公边协同的增量训练.C)实现分布式计算过程,符合以下要求:1)应具的容错性,在训练过程中有节点或同络连接出现故隔(如节点、交换或路由设备不工作或性能卜降时,保证原有任务的继埃进行,直到完成;2)宜提供统
8、一的编程模型,屏陂不同机器学习框架或异构计比设备的差异;3)宜能利用坎群中分布式存储设法,根据不同的分布式计算场景(如公侧内部端公,边云等)设置相应的存储方式:-1)应支持计算设备管理,能虚拟化并分配AI加速卡或A1.加速处理器资源,注:计。设备的管理和盟%MGB.XXXXX.1-2O2X.d)分布式多终端协同,符合如下要求:1)宜实现去中心化的把终堆设爸A1.任务协同;2)应实现节点状态的实时维护与共享(含节点资源使用状态:3)应实现在调收实时性保障机制(如超时机制等):注;集酢期网使用无姚连整仙无妙用域网或越牙)时,可能公出现代侑速率有很I1.不Q定的忸况.-1)宜实现设i状态或能力适应性
9、协同策略(如按可用计算能力调度;注:乡终端设得侬构不同则健力不同,计口资源的分布可能不均物.5)计算调度过程不应彰响其他设在或应用的运行(如正常的视物播放任务不应被打断,或导致播放Q顿等。7.3组件要求7.3.1 机器学习框架用于分布式机器学习任务的机器学习框架,符合以下要求:a)应能在云侧、边侧设符或茄侧等设备上运行:b)配备模型部若工具,符合以下要求:1)应支持模型的云侧部署:2)应支持轻双化框架(特定场景中非必要组件被籽战),在云IW训练的模型,能部署在掂偏或边侧:3)应支持在内存受限的设备或环境中的运行.-1)宜支持械型量化,并在川户需求允许的误差他国内,使模型从公健迁移至端侧或边(W
10、:c)应支持以卜至少1种计算悔同模式:1)云例训练-帮侧推理:2)云俯训练边侧推理:3) Z超上端傀联邦学习;1)云俯一边俯联邦学习:5)云OH-边恻-端侧联合推理.d)宜支持云结边AI计算物同模式,包含但不仅限于:1)云像训域端侧描肽训练箍侧推理:2)公他训练一边侧增H训缘一边IW推理;3)云O1.WI1.城边侧增用训练罪侧推理.e)在储云偏、边例、然恻应用统,的计辄图中间衣示,支持一次训练后的模型在潮、边、zi上的无(格式)转换部署。7.3.2 虚拟化与调度组件A1.加速处理器或M加速卡的虚拟化与调度组件,符合以下技术要求:a)应符合GB/TXXXXX.1-2O2X中规定的虚拟化要求;b)资源网度系统应能啊用AI加速卡或I加速处理渊及其虚拟化实例,包含:1) A1.训绘加速卡:2) AI推理加速卡:3)能用于训练及推理任务的A1.加速卡.C)任务调度,符合以下要求:D应支持云侧之间的训练任务词度,实施分布式训练:2)宜支持边例之间的训练任务调度,支持边恻增吊训练或分布式训练;3)应支持云偏或边刈之间的推