《AI 转型咨询服务系统技术规范.docx》由会员分享,可在线阅读,更多相关《AI 转型咨询服务系统技术规范.docx(10页珍藏版)》请在优知文库上搜索。
1、ICS35.240CCSL70团体标准T/CASMESXXXX-2023Al转型咨询服务系统技术规范TechnicalspecificationofAItransformationconsultingservicesystem(征求意见稿)2023-XX-XX发布2023-XX-XX实施中国中小企业协会发布目次前言II1范围12规范性引用文件13术语和定义14缩略语15服务流程16功能要求27性能要求68审核与合规69修订与更新7,r/刖百本文件按照GB/T1.1-2020标准化工作导则第1部分:标准化文件的结构和起草规则的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识
2、别专利的责任。本文件由浙江讯盟科技有限公司提出。本文件由中国中小企业协会归口。本文件起草单位:浙江讯盟科技有限公司、XXX、XXX本文件主要起草人:XXX、XXX、XXXAl转型咨询服务系统技术规范1范围本文件规定了AT转型咨询服务系统的术语和定义、缩略语、服务流程、功能要求、性能要求、审核与合规、修订与更新。本文件适用于涉及AI大模型研究和应用的机构与个人,包括但不限于科研机构、高校、企业、政府部门等,同时适用于具备一定AI技术基础和应用经验的组织和个人对AI转型咨询服务系统的构建、评估、验收。2规范性引用文件本文件没有规范性引用文件。3术语和定义下列术语和定义适用于本文件。1 1人工智能a
3、rtificiaIinteIIigence共同构建、优化和应用模型的一组方法或自动化实体,使系统能针对一系列预定义任务实现预测、推荐或决策。机器学习machinelearning通过计算技术优化模型参数的过程,使模型的行为反映数据或经验。模型部署modeIdepIoyment将管理的模型,按照与推理环境相匹配的方式部署到指定环境中,并以指定的接口形式与其他业务应用集成。缩略语AT:人工智能ArtificialIntelligenceFTP:文件传输协议FileTransferProtocolURL:统一资源定位符 RTSP:实时流传输协议 GAN:生成式对抗网络 SDK:软件开发工具包Unif
4、ormResourceLocatorRealTimeStreamingProtocolGenerativeAdversarialNetworksSoftwareDevelopmentKit、OCR:光学字符识别OPliCaICharacterRecognition服务流程51项目启动在项目启动阶段,应进行初步需求分析,明确项目目标和范围,制定项目计划,并分配资源。内应主要包括下列步骤:1.1.1 了解客户需求和期望;b)分析现有系统和数据;c)确定项目目标和范围;d)制定详细的项目计划和时间表;e)分析项目资源和人员。片9数据收集与预处理在数据收集阶段,应确定数据来源,收集数据,并进行数据清洗
5、和预处理,保证数据的准确性和完整性。应主要包括下列步骤:a)确定数据来源和收集方法;b)进行数据清洗和预处理;c)构建数据集并进行验证。41模型开发与训练在模型开发与训练阶段,应进行模型设计和开发,并进行训练和优化。应主要包括下列步骤:a)选择适合的模型和算法;b)进行特征工程和模型设计;c)对模型进行训练和优化;d)进行模型评估和选择。E4模型部署与集成在模型部署与集成阶段,应将模型部署到实际应用场景中,并与现有系统进行集成。应主要包括下列步骤:a)选择适合的部署方法和平台;b)将模型集成到现有系统中;c)进行模型部署和测试;d)更新和维护模型。AA模型监控与维护在模型监控与维护阶段,应对已
6、部署的模型进行监控和维护,保证其稳定性和安全性。应主要包括下列步骤:a)建立模型监控系统;b)监测模型性能和异常情况;c)进行模型维护和更新;d)处理模型错误和异常情况。6功能要求A1数据接入6.1.1 应根据项目需求,按照不同方式接入不同类型的数据,并在此基础上开展后续环节。该能力项可设置但不限于以下考察面:接入数据类型、接入数据方式、接入数据的参数配置等。1.1.2 应包括以下基本功能:a)支持接入结构化数据,如库表等格式;b)支持接入多种半结构化数据,包括但不限于csv、xlsXISX等格式;C)支持接入多种文本类非结构化数据,包括但不限于txt、doc、CIOCX等格式;d)支持接入多
7、种图片类非结构化数据,包括但不限于png、jpg、jpeg、bmp等格式;e)支持接入多种音频类非结构化数据,包括但不限于mp3、Wav等格式;f)支持接入视频类非结构化数据,如mp4、avi、m。V等格式;g)支持接入多种标签数据,包括但不限于JSON、XML等格式;h)支持接入压缩包文件,如zip、rar.tar等格式;i)支持本地文件接入数据,如木地单个上传、批量上传等;j)支持网络协议接入数据,如FTP、URL、RTSP、共享存储等;k)支持通过用户界面配置数据接入的参数,如数据源、数据类型、接入方式等。1.1.3 可包含以下高级功能:a)支持接入实时数据流,如结构化数据流、非结构化数
8、据流等;b)支持周期性地数据接入,如按照设置的时间间隔定期接入数据。A0数据预处理6.2.1经过清洗、转换等操作,数据预处理部分应能解决数据可能存在的质量问题(如不一致、无效、缺失、重复等),将数据加工为模型开发能够直接使用的形式。该能力项可设置但不限于以下考察面:数据清洗、数据转换、数据增强等。6.2.2应包含以下基本功能:a)支持结构化/半结构化数据的清洗,如数据去重、异常值检测、缺失值填充等;b)支持非结构化数据的清洗,如根据特定规则剔除不符合要求的非结构化数据;c)支持不同格式数据标签之间的转换,如XUL标签与JSoN标签之间的转换;d)支持集成脚本语言进行数据加工,如PythOn、P
9、ySPark、SQL等;e)支持自定义数据预处理功能,如用户自定义预处理算法逻辑。6.2.3可包含以下高级功能:a)支持结构化/半结构化数据的自动预处理;b)支持非结构化数据的自动预处理,如图像数据的自动预处理;c)支持有监督数据增强技术,也即基于现有样本的单样本数据增强、多样本数据增强,如图像的翻转、缩放、裁剪等;d)支持无监督数据增强技术,也即基于深度学习等算法的数据增强,如基于GAN的数据增强、神经风格转换等。61模型开发6.3.1模型开发旨在提供方便、系统、专业的开发工具和环境,通过更加人性化的操作接口展示,帮助不同层次的开发者开发算法,该部分尤其关注对主流机器学习框架的集成和支持。该
10、能力项可设置但不限于以下考察面:开发库(Al框架等)、建模方式等。6.3.2应包括以下基本功能:a)支持多种(两种或以上)传统机器学习框架,如SPark、SeikitTearn、XGBoost等;b)支持多种(两种或以上)深度学习框架,如TCnSOrFlOw、PyTorchPaddlcPaddle等;c)支持提供预训练模型,如自然语言处理、计算机视觉等领域的预训练模型;d)支持Python等开发语言;e)支持交互式编码建模,如NotebOOk等;f)支持可视化建模,如拖拽组件等:g)支持本地IDE开发,如通过集成SDK访问平台服务;h)支持自定义开发环境,如以镜像方式提供可自定义的开发环境。6
11、.3.3可包括支持对建模任务进行封装,如封装为SDK等形式的高级功能。64模型训练6.4.1应能为用户提供多维度的训练支持,包括,包括训练资源的调度、训练操作的支持、训练优化的支持等,系统应为用户屏蔽底层算力设施的复杂组网和配置,通过简易设置实现不同的训练模式。该能力项可设置但不限于以下考察面:训练类型、训练操作、训练优化等。6.4.2应包括以下基本功能:a)支持多种CPU训练方式,包括但不限于:单机训练、分布式训练;b)支持多种GPU训练方式,包括但不限于:单卡训练、单机多卡、多机多卡训练;c)支持设置训练资源规格,如CPU核数、GPU个数、内存等;d)支持自定义训练参数,包括但不限于:算法
12、参数、运行参数、训练数据、验证数据等;e)支持训练任务的多种操作,包括但不限于:创建、查询、开启、终止、删除、修改等;f)支持对正在执行训练任务的多种操作,包括但不限于:中止、断点恢复、断点重做等;g)支持训练任务的信息查看,包括但不限于:训练状态、训练进度、训练结果、训练失败原因等信息;h)支持模型的微调(fine-tune),如基于预训练模型、自动训练模型的二次训练;i)支持模型训练过程的可视化,如训练参数和指标、模型图等的可视化。6.4.3可包括以下高级功能:a)支持异构计算资源训练,如不同架构芯片、加速卡用于异构加速训练任务;b)提供自动调参工具,可根据模型及数据量设定合适的参数;c)
13、支持训练优化技术,如混合精度训练、编译优化等;d)支持分布式计算框架的优化,如显存优化、线性加速比的提升、通信优化等。AK自动学习6.5.1自动学习可以将超参数调优、模型选择等环节进行自动化处理,同时通过模板化、可视化、向导式的建模工具,降低用户所需的技术门槛。该能力项可设置但不限于以下考察面:超参数搜索、模型结构设计、自动学习模板等。6.5.2应包含以下基本功能:a)支持自动数据增强,如遗传进化、可微分等技术;b)支持多种(两种或以上)超参数搜索技术,如网络搜索、随机搜索、贝叶斯优化等;c)支持模型结构的自动设计,如神经网络架构搜索;d)支持通过向导式的操作帮助用户完成模型训练,如模式定义、
14、模型选择、参数/超参数设置等操作;e)支持自动化建模任务的信息查看,如模型指标、资源消耗、训练时长等。6.5.3可包含以下高级功能:a)支持小样本学习,在小样本的情况下训练出较高精度模型;b)支持多个模型融合,如AVeragingEnSCmbIe(平均法融合)、GrecdyEnsemble(贪婪法融合)、StackingEnsemble(堆叠法融合)等集成方法;c)支持多种(两种或以上)图像类自动建模场景模板,如图像分类、物体检测、图像分割、文字识别等;d)支持多种(两种或以上)文本类自动建模场景模板,如文本分类、文本匹配、序列标注等;e)支持多种(两种或以上)语音类自动建模场景模板,如语音识
15、别、声音分类等;f)支持多种(两种或以上)视频类自动建模场景模板,如目标跟踪、视频分类等;g)在明确标注数据和业务场景的情况下,支持自动学习生成模型,自动完成特征工程、模型选择、超参数调优、模型训练等环节。AA模型部署6.6.1意根据具体业务需求,将模型部署在云端、边缘端、终端等不同的位置。该能力项可设置但不限于以下考察面:部署测试、部署模式、部署资源、部署管理等。6.6.2应包括以下基本功能:a)支持用户自定义推理服务使用的资源规格,如计算资源类型、资源数量等;b)支持以容器镜像的方式部署模型;c)支持将模型部署为在线服务;d)支持将模型部署为批量服务;e)支持以SDK的方式部署模型;f)支持多种模型部署及测试策略,包括但不限于:滚动更新、灰度测试、A/B测试等;g)支持面向业务场景的多模型编排,将多模型编排后以统一接口提供模型推理服务;h)支持查看模型部署的信息,如部署状态、失败信息、离线日志等。6.6.3可包括以下高级功能:a)支持推理加速框架模型的部署,如Te