《YD_T 4390-2023 AI服务器及能力平台测试方法.docx》由会员分享,可在线阅读,更多相关《YD_T 4390-2023 AI服务器及能力平台测试方法.docx(34页珍藏版)》请在优知文库上搜索。
1、ICS33.(M0.40CCSW2YD中华人民共和通信行业标准YD/T43902023AI服务器及能力平台测试方法TestspecificationsforAIserversandcapabi1.ityp1.atforms2023-11-01实施2023-07-28发布中华人民共和国工业和信息化部发布目次前三IIII范困I2规范性引用文件I3术谱、定义和缩略谱13.1 术语和定义13.2 缩略泌24测试环境35 A1.通用平台测试45.1 平台技术架构45.2 数据集及预处理类75.3 数据标注业务85.4 蟆型开发业务95.5 模型推理业务I5.6 深度学习工具类125.7 运智管理业务14
2、5.8 平台安全性185.9 平台可靠性185.10 平台扩展性205.11 通用A1.能力216 A1.限务器测试226.1 产品信息检脸226.2 菸本限置检骁226.3 可靠性测试296.4 性能测试296.5 能耗测试30本文件按照GB,T1.1-2020标准化工作导则笫】部分:标准化文件的结构和起草规的规定内容起草.请注意本文件的某些内容可能涉及专利.本文件的发布机构不承担识别这些专利的货任.本文件由中国通信标准化物会提出并归口.本文件起草单位:中国信总通信研究院、中国电信集团有限公司、北京百度网讯科技有限公司。本文件主要起草人:郭亮、高飞、赵继壮、李士保、陈子开、谢丽娜、李洁、王峰
3、、郑超、程帅、康亚京、张学聪、王少鹏、盛凯、芦帅、郑常至贾冠一张巧月.AI服务器及能力平台测试方法1范围本文件规定了AI服务战及其所承致的A1.能力平台的测试方法,主要包括服务器和平台两个方面.服务器方面包含对A1.服务器基本配置检验、功能、性能、可靠性、能耗等方面的测试方法:平台方面主要包含对技术架构、功能、安全性、可靠性等方面的测试方法。本文件适用于对R1.服芬器及配套A1.能力平台的测试选型.2规范性引用文件本文件没有规范性引用文件。3术语、定义和1语3.1 术语和定义卜列术语、定义适用于本文件。3.1.1模型mode1.训练完的结果文件和配置文件集合(包括网络结构、参数等),3.1.2
4、引擎engine将模型部署为栖定服务时,模型可进行推理的容器环境.3.1.3能力abi1.ity模型部署完成后提供稔定访问的服务,能力部署时包括模31和引繁两部分.注:业务层需提阳伸洲功能,对各能力有版本、调用权限的管理。3.1.4数据9(处理datapreprocessing对原始数据进行必要的清理、集成、转换、齿散和规约等一系列的处理工作.注:处理有多种方法,例如数据清理、数据集成、数据交换、数据方的等,3.16特征工程featurecn&inccring本质是一项工程活动,目的是最大程质地从原始数据中提取特征以供疗法和模型使用.3.1.6关联分析associationana1.ysis通
5、过研究已经产生的数据,找出存在于项目集合之间的关联模式,在具备关联性情况下通过其中一个项集对另外一个项集进行预测。3.1.7敷据标注dataannotations数据标注员借助标注工具,对图像、文本、谙音、视频等数据进行拉框、描点、转写、语义分割等操作,以产出适合机器学习数据集的过程。注:通常数据标注的类型包括图像标注、语音标注、文本僦也视颇标注等种类,标记的小本形式由质i洵枢、3D国框、文本转录、图像打点、目标物体轮喊等.3.1.8超参数hyperparameter在机器学习中,超参数是指在开始学习过程之前设置值的参数,而不是通过训练得到的参数数据,通常情况下,需要对超参数进行优化,给学习机
6、选择一蛆最优侬参数,以提高学习的性能和效果.3.1.9租户tenant可根据自身需求对租用的系统实例进行个性化配置的主体,且保证同一平分下的数据隔离.3.2 缩略语下列缩略语适用于本文件AI人工智能Artificia1.Inte1.1.igenceBIOS刘本输入愉出系统BasicInputOutputSystemBMC基板管理控制器BaseboardManagementContro1.1.erHBA主机总线适配器Hs1.BusAdapterIPMi智能型平台管理接口Inte1.1.igentP1.aifbimManageineniInterfaceKVM键盘、显示涔、以标KeyboaniVi
7、deoMouseOC:R光学字符识别Optica1.CharacterRecognitionPCIE商速外设互联标准Periphera1.ComponentIn1.erconncc1.ExpressRAID独立磁盘冗余阵列RedUndantArrayOf1.ndependcntDisksSAS一行连接SCSI接口Seria1.AttachedSCSISA1.A小行高级技术附件Seria1.AdvancedTechno1.ogyAttachmentSNMP简单网络管理生议Simp1.eNetworkManageinen1.Protixro1.SSD同态硬盘So1.idStateDrives4满试
8、环境A1.HIi务湍及能力平价参考配置要求见表I.1A1.务及能力7自KEH求分类GPV服务器要求配置Ia台)K2(1)应用场景深度学习瑞线训缥场景在级推理场景CPU单颗CTt核数1212核主频2.3(GHz)2.3(GHZ)数量2个2个内存32GB32GB内存娱率2400MHz24丽Z类型DDR4DDR4r12个12个硬盐1(系统就)480GB180GB硬盘1硬Ia咨数SSD(企业级)SSD(企业级)接口类型ST(6Gbits)SAT(6Gbits)ftft2个2个硬盘Iraid要求IUIDO,RR1.DOJ硬12(数据盘)1.92T1.92T硬盘2SSD(企业级)SSD(企业级)接口类型S
9、jT(6Gbits)SAT(6Cbits)6个6个硬速2raid要求RAIDO11,5.6,KM支持电池保护或电容保护方案,提供掉电保护)RA1.DOJ,5,6,10(支柠电池保护或电容保护方案,提供掉电保护)缓存X2G接口类型SAS(12Gbits)SASGPU卡24G24G1A1.展务及力台TEU*分类GFt服务器要求配-M1.-)配置2(1台)应用场景深度学习点歧训嫁场屋在线推理场景GPU卡数景8个8个CPU与GPU超比1:8IMPae拓扑管理网卡xiPMiti.板栽)IX1.PM1.(电口,板拗管理W卡数盘I个1个扩展要求1内存牯梏内存插梏扩爬Sfrt2124城加是否热物城是或他电源也
10、置220VAa白金级以上电理模块,满配.N+N冗余220VAC,白金级以上电源模块.商用.N+N冗余风扇配置满配,支持风扇N+I冗余满闿,支持风审NT冗余USB接口不少于2个不少于2个Jt架要求上架套件上架睿件5A1.通用平台测试5.1 平台技术渠构&1.1平台技术架(求用例名称平台技术架构要求预置条件记录系统部X过程,并在部署全部完成后进行校杳测试步碟1)检杳是否系统上要组件均运行于集群之上,井H资潴两改找为K8S扩剧两度器非默认调度器.2)检查平台是否具径开放性奥构,提供业务的REsTAP1.控制搂口,支持AI组件的集成,3)检查平台监控数据库是否支持指标监控系统,例如PrcaCthCUS
11、等.1)检查平台是否支持集中H志系统,例如E1.K或EFK等预期结果D步骤I可登录到K8SdHshh3rd或通过kubtI杼到容器化运行的平台调慢器组件、门户组件、标注组件、模型训练、模型管理、模型服务的功能扭件,2)步舞2中可通过restAP1.客户端成功创建训炼和推理任务.杳询任务执行状态,并在nb门户中看到这些通过API创建的任务.3)步磔3中可在指标监控系统中实时君列系统9控数据,.1)步骤,1中可在集中H志系统中实时对川户日志和系统H志进行搜索通过标点饮期结果全都满足5.1.2资源EM*Binpack埠法Jf1.fJI名稗费流管理编排商-BinPaCkJr法预置条件GPIJ集桶无运行
12、中的训统作业测试步骤D在模型训涿页面按期序提交I个通机Ik宽源需求的任务.2)在GPU联务耦的节点监控页面杳看两个物理节点各自承我的任务统计预期结果步骤2中可以赤到一个节点上有,1个作业,另一个节点上有0个作业通过标准:预期结果全部满足5.1.3潮”9NMHFmk算於用例名称资源管理编柞器-排队算法预置条件/测试步臊D设置项目喷源配制为4张GPtJ卡.2项目P用户U1.提交4卡任务T1.3)恃11成功运行时,项目P用户U2提交2卡任务T2.4)防后在界面停止T1.,观察T2预期结果D步骅3平台界而显示T2囚资源不足处于挎队等待状态.2步骤1防着TI结束运行新放资源,T2获取以海自动进入运行状态
13、通过标准预期结果全部满足5.1.4冼ft算法用例名称资源管理承排器-优先级算法但粗条件/测试加舞在租户空间内,设定四个不同等级的项目.并同时启动基于GpV的任务HU切结果D平台界面支持设定项目不同S1.A等汲.2)在资源不足的情况下.高优先级的项H优先执行通过林准预期结果全部演足5.1.5业务流利副精|用例名称业务潦程褊排牌预置条件/测试步歌I)Het系统是否具备深度学习端到端业务流程编执器.2)直看前水线弓I整是否可以统一编建深度学习各个流程限期结果1)步骤1可在后台看到业务编排正实例.2)步骤2编扑器可以对数据饮处理、校电训练进行条龙流程连接,支持各个洵程容器间输入就出数据集的自动传递.3
14、)揄排器罐同时支持按照时间进行周JW调度.4)编加器提供AP1.投创接口通过标准预期结果全部满足5.1.6m*Jf1.例名称镜像仓库预置条件测试步磔I)妁过平台贝面炎后摊像仓库中H1.置的饰像内容,2)通过平台端写、构比钺愧.发布镜像到德像仓库预期结果D步舞I中项目人员可以看到系统公共境像和私有镜像.至少包括镜像名称.标签.版本、下敕次数、创建时何、悔像大小.2)步骤2中平台以M页形式提供编辑功能,提交后由乎台后台执行构世过和通过标准但期站梁全部满足5.1.7防同开发会事用例幺称协同开发仓库预置条件/测试步骤1)检查平台是否具有git仓麻.2校过平台模型开发流程中代玛是否可进行管控预期结果D平台中部箸有git仓麻网元.