《TZSA215-2023人工智能算力网络第1部分总体要求.docx》由会员分享,可在线阅读,更多相关《TZSA215-2023人工智能算力网络第1部分总体要求.docx(11页珍藏版)》请在优知文库上搜索。
1、ICS35.020CCSL71团体标准T/ZSA2152023人工智能算力网络第1部分:总体要求2023-12-30 实施ArtificialintelligencecomputingnetPart1:Generalrequirements2023-12-29发布中关村标准化协会发布目次前言II引言TII1范围12规范性引用文件13术语和定义14缩略语25系统参考架构25.1 总体架构25.2 部署架构36功能要求36.1概述46.2资源层46.3适酉己层46.4 网络层46.5 调度层46.6 应用层56.7 运营层56.8 安全机制67接口要求67.1 资源层与适配层间接口67.2 适配层
2、与调度层间接口67.3 运营层与调度层间接口67.4 应用层与运营层间接口67.5 应用层与调度层间接口6参考文献7本文件按照GB/T1.1-2020标准化工作导则第1部分:标准化文件的结构和起草规则的规定起草。本文件是T/AI123人工智能算力网络的第1部分。己经发布了以下部分: 第1部分:总体要求。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由中关村标准化协会技术委员会提出并归口。本文件起草单位:鹏城实验室、中关村视听产业技术创新联盟、华为技术有限公司、国防科技大学、北京大学、北京交通大学、北京百度网讯科技有限公司、中国联合网络通信有限公司研究院、中兴通
3、讯股份有限公司、中国移动通信研究院、中国电信股份有限公司。本文件主要起草人:余跃、张叶红、王晖、徐春香、张艳、张嘉琪、赵海英、崔晓冉、聂永丰、张鹏、孔凡斌、郑容健、张晓东、曾炜、董平、张宇阳、田晓利、曹畅、张岩、霍龙社、黄光平、袁丽雅、牟林、李志强、付月霞、刘敬谦、李康、杨建坤、高文。人工智能算力网络系列标准,旨在对人工智能算力网络中各部分的详细功能及技术进行标准化,拟由14个部分构成。特别说明的是,由于智算网络技术正处于研究攻关的发展时期,该标准体系将随着技术发展而优化和更新。 第1部分:总体要求。目的在于确立智算网络的系统参考架构、总体功能要求及接口要求。一第2部分:异构资源统一度量和标识
4、。目的在于确立数据、算力、模型、存储、网络等异构资源统一抽象度量和标识的方法与转换要求。 第3部分:云际数据统一存储应用接口。目的在于确立全局共享数据存储的统一技术架构及其功能、接口、性能、可靠性要求。一第4部分:调度适配器南向接口规范。目的在于确立调度适配器与各智算中心云化管理调度系统之间的接口,实现智算中心资源获取和作业下发。一第5部分:资源感知路由协议接口。目的在于确立通过智算网络资源感知路由协议获取资源动态信息的接口。一第6部分:云际管理与调度。目的在于确立异构云互联的云际资源管理与调度系统功能及智能优化调度技术与策略。一第7部分:网络设施与互联。目的在于确立智算中心网络互联需要的网络
5、种类、网络规格、网络功能等。 第8部分:应用层接口。目的在于确立运营层、调度层为应用层提供的服务功能及接口。一第9部分:多中心协同计算。目的在于确立多中心协同计算的应用场景,抽象建模协同计算作业,作业流程、作业评估及协同计算参考架构。一第10部分:基础运营服务。目的在于确立运营层基础功能,包括用户/智算中心认证与授权、行为审计、运维监控等。 第11部分:算力运营。目的在于确立算力资源的计量和费用结算方法,算力运营分析等。一第12部分:数据资源流通交易统一规范与接口。目的在于确立运营层数据市场与模型市场资源流通交易过程中的功能接口,包括数据资源发布、确权、计量计费、运营分析等。一第13部分:通信
6、网络安全。目的在于确立智算网络中通信网络认证、传输等过程中的安全技术要求。第14部分:数据与模型安全。目的在于确立智算网络运营及应用中数据与模型隐私安全技术要求。人工智能算力网络第1部分:总体要求1范围本文件确立了人工智能算力网络(以下简称“智算网络”)的系统参考架构、规定了智算网络的总体架构组成层级的功能要求和各层级间的接口要求。本文件适用于人工智能算力网络的总体设计和建设。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T41867-
7、2022信息技术人工智能术语3术语和定义GB/T41867-2022界定的以及下列术语和定义适用于本文件。3.1数据中心datacenter一种能够提供容纳、互联和操作的结构,或结构组。它使用信息技术、电信网络设备提供的数据存储、处理、迁移服务及其它所有功能,并集成能量供应、环境控制和为保证服务可用性而制定的必要的韧性、安全性级别定义。注1:数据中心结构一般包含数个楼宇或空间,用以支撑数据中心主要功能。注2:包含数据中心中信息及通信技术设备及支撑环境控制设备边界或空间,定义于更大的结构或楼宇中。来源:IS0/IEC22237-1:2021,3.1.83.2计算中心computingcenter
8、为多用户提供计算服务的设施。注:用户的操作通过对计算设备及辅助硬件的操作及中心人员的服务实现。来源:1S0/IEC/IEEE24765:2017,3.741,有修改3.3人工智能计算中心artificialinteIIigencecomputingcenter智算中心一种能够为多用户提供人工智能计算服务、数据容纳的结构或结构组。使用信息技术、电信网络设备提供的数据存储、处理、迁移,人工智能计算加速等功能,并集成能量供应、环境控制和为服务可用性而制定的必要的可靠性组件。注1:人工智能计算中心一般包含数据中心可能涉及的楼宇或空间,用以支撑人工智能计算中心主要功能。注2:人工智能计算中心中的服务器,
9、一般包含人工智能服务器和通用服务器等,服务器称为“节点”。来源:TS0/IEC22237-1:2021,3.L8和IS0IEC/IEEE24765:2017,3.741,有修改3.4算力网络computingnet通过网络技术将各地的计算中心连接起来,进而统筹分配和调度计算任务的网络。注:算力网络基于统一的算网资源视图,为业务和应用提供算力和网络融合保障和调度。来源:ITU-TY.2501,6,有修改3.5人工智能算力网络artificiaIinteIIigencecomputingnet智算网络通过新型网络技术将各地分布的人工智能计算中心连接起来,构成多个中心间感知算力、数据、算法资源,进而
10、统筹分配和调度人工智能计算任务的网络。4缩略语下列缩略语适用于本文件。Al:人工智能(ArtificialIntelligence)CPU:中央处理单元(CentralProcessingUnit)FCFS:先来先服务(FirstComeFirstService)IP:网际互连协议(InternetProtocol)GPU:图形处理单元(GraphicsProcessingUnit)NPU:神经网络处理单元(NeuralNetworkProcessingUnit)OTN:光传输网络(OpticalTransportNetwork)QoE:体验质量(QualityofExperience)QoS
11、:服务质量(QualityofService)5系统参考架构5.1 总体架构智算网络连接分散在各地的智算中心节点,汇聚和共享算力、数据、模型和应用等资源。智算中心通过加入智算网络实现资源共享,并通过智算网络统一调度,提高全网资源利用率,满足业务和应用的算力和网络需求。智算网络的总体架构见图晨te*rtaXffVJLTl*-与W 夏威)得 y:谓:iHtBcldld0”中 S 1|Ud 智,中3 Ia” 3S- 力二 MBSY图1智算网络总体架构5.2 部署架构智算网络中各智算中心互联的部署架构见图2,其中:a)智算中心之间可通过以下两种方式进行互联:1)通用互联网;2) IP专网;3) OTN
12、高速网络;b)枢纽节点为某区域内的大型/重要智算中心,枢纽节点之间的互联方式优先级由高到低为:专线高速网络,IP专网,通用互联网;c)其它智算中心之间的互联方式优先级由高到低为:通用互联网,IP专网,专线高速网络;d)智算网络平台(包括云际调度平台和运营平台)可部署在某个智算中心内,或部署于独立的服务集群。图2智算网络部署架构6功能要求6.1概述智算网络总体架构可分为资源层、适配层、网络层、调度层、应用层、运营层和安全机制。6.2 资源层智算网络资源层包含各智算中心的算力、数据等资源,应具备以下功能:a)算力资源提供:提供计算、存储等资源,并支持按需扩缩容;b)智算中心互联与开放:实现各智算中
13、心算力和数据资源的互联互通,支持各智算中心算力和数据资源的对外开放;c)统一数据存储:在现有智算网络的存储资源上构建统一的支持块/文件/对象的融合存储服务,支持跨智算中心的数据管理和迁移。6.3 适配层智算网络适配层通过调度适配器,实现调度层与资源层之间的数据交互。调度适配器部署在各智算中心内,对接各智算中心内异构的云化管理与调度系统,负责异构集群资源采集和上报,实现作业转发和管理。调度适配器支持从各智算中心采集集群资源、负载、能耗、费率等信息并上报给调度层,由调度层根据这些信息进行作业调度。适配层应包含以下功能:a)支持以CPU、GPU、NPU等三类计算芯片为主的智算中心对外接口的统一适配,
14、屏蔽异构集群技术栈差异;b)支持接口扩展,满足其他类型芯片的智算中心接入智算网络的要求;c)作业代理:支持将调度层下发的作业发送到智算中心本地调度系统,周期性采集作业状态的资源使用信息,并上报到调度层;d)算力资源代理:周期性采集所属计算集群的资源信息并上报给调度层;e)数据管理与缓存:支持适配层和调度层之间的数据管理,包括数据上传、下载、断点续传等。支持作业调度时的数据下发,和作业执行结束后的数据取回。支持缓存作业数据,避免使用重复数据时数据的再次传输,提高数据利用率;f)账号映射:支持智算网络统一用户账号到各个智算中心云化管理调度系统的用户账号之间的映射。6.4 网络层智算网络网络层基于多
15、种异构网络基础设施实现多智算中心之间的互联,实现异构网络资源信息的采集和上报,实现算力数据路由转发。网络层应包含以下功能:a)异构网络融合:支持多元化异构网络类型,如:全光网、以太网等;b)组网方式兼容:支持多种组网方式,如:专用高速网络、公共网络等;c)网络度量:统网络参数的测量方法和度量单位,如带宽、时延、抖动等网络参数;d)网络状态采集:规定数据采集格式、采集频率、采集方法等;e)网络状态汇报:将采集到的网络状态上报到调度层;f)网络运维:根据监控的网络状态采取运维手段确保网络的可用性、性能和安全性:g)算网融合路由策略:当调度层确定算力作业的目标计算节点后,在现有网络协议的基础上,额外考虑算力作业对网络的需求,动态调整算力作业中数据包的路由策略,并将算力作业等信息路由至指定节点;h)网络性能保