《2024全国职工职业技能大赛人工智能训练师赛.docx》由会员分享,可在线阅读,更多相关《2024全国职工职业技能大赛人工智能训练师赛.docx(21页珍藏版)》请在优知文库上搜索。
1、第八届全国职工职业技能大赛人工智能训练师赛项技术文件一、技术描述I(一)项目概要1(二)基本知识与能力要求1二、试题与评判标准4(一)试题4(二)比赛时间及试题具体内容5(三)评判标准7(四)公布方式(保密安排)9(五)竞赛样题9三、竞赛细则12(一)比赛的具体流程12(二)裁判员条件和工作内容12(三)选手条件和工作内容15(四)工作人员及其他人员须知16(五)申诉与仲裁16四、竞赛场地、设施设备等安排17(一)赛场规格要求17(二)场地布局17三)基础设施清单17五、安全健康要求21(一)选手安全防护措施要求21(二)裁判安全防护措施要求21(三)工作人员安全防护措施要求22(四)健康安全
2、违规的处理方案22(五)医疗设备和措施22(六)绿色环保22一、技术描述(一)项目概要当前人工智能技术已广泛应用于智慧零售、医疗、交通、安防等领域,本赛项以国家新一代人工智能发展规划为背景,针对国家新职业“人工智能训练师”的岗位定义与典型工作任务,面向全国人工智能工程技术、人工智能技术应用、智能科学与技术、电子信息工程、计算机与软件工程等相应专业领域的职业从业人员,体现行业特色,围绕真实工作过程、任务和要求设计竞赛内容,重点考查选手人工智能工程技术能力、规范操作和创新创意水平,检验参赛选手的综合职业能力。本赛项为单人赛,以实际工程应用为项目背景进行设计,针对在人工智能技术实际使用过程中进行数据
3、库管理、算法参数设置、人机交互设计、性能测试跟踪及其他辅助作业方向,考察选手对计算机科学、数据科学、机器学习、深度学习等相关领域的基础理论知识以及编程技能,重点考察参赛选手数据采集、数据清洗、数据标注、训练环境搭建、模型训练、模型调优、模型验证、模型部署、人工智能系统运维等人工智能全链工具的工程应用技术的运用能力。(二)基本知识与能力要求参赛选手完成本赛项的考核需要具备人工智能训师练相关基础知识与技能,见表1及表2:表1人工智能训练师项目相关基础知识相关要求权重比例(%)I博础理论知识15基本知识计算机硬件组成、指令集架构、存储器层次结构、输入输出设备等.操作系统的基本概念、功能,掌握进程管理
4、、内存管理、文件系统、输入输出管理等关键技术。一战性表、树、图、哈希表等常见数据结构,以及樗序、查找、图遍历等基本党法。一&悉至少一种而级编程语言(例如PyIhOn、Java、C+),包括语言的基本语法、控制结构、函数、面向对象编程等。计算机网络的基本概念、协议分层、TCP/IP协议族、网络安全等。线性代数、微积分、概率论等数学工具在计算机科学中的应用,掌握基本的数值优化方法.人工智能的基本概念、历史发展、应用领域,掌握人工智能的基本原理与技术。i1.舞机科学中的伦理与法律间咫,如数据隐私、安全、知识产权等。信息安全知识生产安全和环境安全知识2数据处理20基本知识数据库基础概念,数据库管理系统
5、的功能,数据阵系统的组成,数据库技术的发展历程常用SQ1.语言数据库的并发控制、事务管理和隔离级别数据库设计知识,了解实体-关系模型、存储结构选择数据库备份与恢灾、数据库性能调优、数据文件、分布式数据库、云数据库、大数据技术、数据仓库、数据挖掘等等人工智能数据处理知识工作能力能锵使用常用编程语言和数据库,实现数据读取和可视化、数据集划分、数据施础处理以及数据增强等常用操作3机罂学习15基本知识机器学习基础概念监督学习、无监督学习和强化学习的概念机器学习的基本流程分类、聚类、回归、关联规则常用算法采样、降维、特征选择等特征工程方法一机器学习中过拟合与欠拟合、数据不平衡处理等常见问题与解决方案工作
6、能力能够使用常用编程语言和工具阵,进行特征提取、模型构建、模型训练和模型验证等操作4深度学习15基本知识一神经网络的结构与工作原理卷积神经网络、循环神经网络等深度学习的基本概念强化学习的基本概念和常见方法深度学习模型的模型评估超参数调优方法工作能力能够使用常用深度学习框架对图像、视顼桀进行目标识别、对象分类等工作5生成式人工智能15基本知识一生成式模蟹基础架构,包括BERT.GPT.DiffUMOn等生成式模型的数据准备,包括去重、过滤、解私处理、数据配比等生成式模里的训练方法,包括经典优化器和分布式优化器生成式模里的微调与对齐,包括参数高效微调、思维链、人类反馈的强化学习生成式模型的应用技术
7、,包括智能代理(agem)和检索增强生成(RAG)牛.成式模型的评估技术,门豚评估语言生成、知识运用、复杂推理等能力的方法6人工智能进行应用开发20基本知识使用人工智能进行应用开发的知识问题定义与数据收集数据稹处理与清洗一特征工程与模型选择模型训练与评估一模型部署与监控工作能力能够使用常用人工智能开发框架进行应用开发、应用维护、性能优化等操作,了解人工智能在行业中的典型应用合计I(X)表2人工智能训练师项目相关实操能力相关要求权重比例(%)1数据准备及处理20实操能力-数据采集原理、安全法规及义务数据清洗安全法则、数据安全的原则数据采集工具与设备基础知识数据标注工程基础图片数据清洗2模型选型能
8、力10实操能力一根据特定任务(如图像识别、语言理解或预测分析)选择合适的机器学习算法和模型3模型调参10实操能力一热练数据预处理、样本评估、算法参数调优的方法4模型训练25实操能力掌握专业领域特征提取基础理论及方法设计算法模型训练、算法模型验证及评测等技术流程灵活使用jupyternotebook,VSCodC等IDE软件灵活使用PyTOrCh等深度学习框架5模型性能评估10实操能力一热悉模型评估的方法和指标,包括准确性、召回率、精确率、RoC曲线、AUC值等6模型部署应用2()实操能力掌握模型转换流程设计自主人工智能产品交互流程设计制定人工智能产品应用解决方案监控及分析人工智能产品应用数据跟
9、踪人工智能产品应用数据管理7安全意识与职业亲养5实操能力一一网络安全意识、数据保护法律与伦理、团队合作与沟通技巧一对数据安全、用户建私保护以及职业行为规范的了解和亚视程度合计I(M)二、试题与评判标准(一)试题1 .竞赛形式本项目比赛形式为单人实操比赛。2 .试题命制的办法及基本流程本赛项专家组根据本竞赛技术规则要求组织命题。大赛全国组委会技术委员会组织有关专家参照现行人工智能训练师国家职业技能标准(三级)应知应会的知识与技能、结合企业生产、院校教学实际和人工智能训练的发展状况,并借鉴世界技能大赛相关项目的命题方法和考核内容,适当增加相关新知识、新技术、新设备、新技能等内容,进行编制技术文件和
10、命题。(二)比赛时间及试题具体内容本次比赛分为理论知识和上机实操两部分。1、理论知识内容与题型(1)比赛题型理论知识比赛以在计算机上答卷(闭卷)的方式进行。比赛时间为90分钟。题型包括200道单项选择题、40道判断题、30道多项选择题,共270道题。其中,单项选择题每题0.5分,判断题每题0.5分,多项选择题每题1分,共计150分。(2)比赛要求参赛选手凭本人身份证和参赛证进入考场,按规定登录竞赛平台答题。试题答案按要求在线回答,草稿纸由现场人员统提供。参赛选手自带签字笔,其他任何资料和电子产品禁止带入考场,否则成绩无效。2、实操环节内容与题型本赛项为实操模拟行业人工智能技术开发与应用的整个流
11、程,考察参赛选手对数据的处理、算法模型的应用熟练程度。赛项总用时480分钟,共分为3道题,共350分。实操竞在模块时长模块A:数据分析与挖掘90分钟模块B:大语言模型特定任务的微调180分钟模块C:智能自动驾般场景综合应用210分钟安全意识与职业素养全过程总时长480分钟(1)数据分析与挖掘(90分钟50分)分为三个步骤:数据探索、数据挖掘、模型评估调优,具体如卜丁步骤-:数据探索,参赛选手根据任务书要求,使用考试平台提供的原始数据完成数据清洗和可视化任务。步骤1:数据分析与挖掘,导入步骤一制作好的训练级、测试集、验证集,选择合理算法训练,输出算法在验证集的结果。步骤三:调参与优化,用合理的方
12、法评估上述模型效果,可视化展示评估结果,如有需要,可进行算法调优调参。按照步骤得分:第一步20分,第二步20分,第三步10分:第一步:3项数据探索、5项数据清洗和2项数据可视化任务。每项任务2分。短项任务成功运行且正确得2分:未运行正确则视过程得OT分第二步:5项任务,每项任务4分。每项任务成功运行且正确得4分:未运行正确则视过程得0-3分。第三步:3项任务;每项任务分别3分、4分、3分,每项任务成功运行且正确得3-4分:未运行正确则视过程得0-3分。f1.值排名,前10劾口5分,前1B-204加3分,前2*30外加1分。(2)大语言模型特定任务的微调(180分钟,100分)考试内容说明:本次
13、比赛的主办方将向参赛者提供一个大语言模型(如Gemma-2B或其它相似大小的模型)以及3种下游任务数据集(如MRpC或KTE)o参赛者需要利用高效参数微调技术,在下游任务数据集上分别对大模型进行微调,使大模型在这些下游任务数据中取得较好的精度。选手操作步骤:步骤1:将主办方提供的每种下游任务数据集进行预处理,并分别制作训练集和验证集步骤2:选择合适的微调算法(如适配器微调、前缀微调、1.oRA等),将主办方提供的大模型对某种下游任务进行微调。步骤3:当完成微调后,将大模型在主办方提供的测试数据集上进行推理,得到大模型在该项任务的准确率。步骤4:重复步骤2和步骤3,直到完成全部下游任务的微调。评
14、分标准:本次评分分为三部分:数据准备(10分),模型微调(30分),精度排名(60分)。第一部分(数据准备)。分别为每种下游任务数据制作训练集和验证集。完成种任务的数据处理是3分,完成2种是6分,完成全部3种任务得10分。第二部分(模型微调).每次针对下游任务进行微调完成得10分。全部完成得分30分。第三部分(精度排名)o每项下游任务都会对选手提供的微调模型按精度进行排名,并根据排名进行打分:前5%给20分,前5%至前10%给15分,前10%至前30熠Ho分,前38I至前6般给5分,剩余选手中,如果提交模型比没有经过微调的基础模型效果好给3分,不如基础模型不给分。全部三项任务最高给分60分。(3)智能自动驾驶场景综合应用(210分钟200分)考察以图像分类、目标检测技术为主的图像类深度学习算法训练,主要分为四个步骤:步骤一:数据采集,使用虚拟场景沙盘采集需要的标识,导出数据集。步骤二:数据标注,利用组委会提供的数据标注平台根据比赛题目任务进行数据集标注,按命名规范、文件目录、文件格式等题目要求保存。步骤三:模型训练与评估,导入制作好的训练集、测试集、验证集,选择合理算法训练,输出算法在验证集的结果。用合理的方法评估上述模型效果,可视化展示评估结果,如有需要,可进行算法调优调参。模型可以在一批未