《2.自然语言处理应用开发职业技能等级标准.docx》由会员分享,可在线阅读,更多相关《2.自然语言处理应用开发职业技能等级标准.docx(13页珍藏版)》请在优知文库上搜索。
1、自然语言处理应用开发职业技能等级标准(2021年1.O版)北京京东世纪信息技术有限公司制定2021年3月发布前言11范围22规范性引用文件23术语和定义24适用院校专业35面向职业岗位(群)46职业技能要求4参考文献10-,Z,1刖三本标准按照GB/T1.1-2020标准化工作导则第1部分:标准化文件的结构和起草规则的规定起草。本标准起草单位:北京京东世纪信息技术有限公司、天津城建大学、天津中德应用技术大学、北京信息职业技术学院、重庆电子工程职业学院、苏州市职业大学、重庆青年职业技术学院、东营职业学院、安徽职业技术学院、青岛职业技术学院、上海电子信息职业技术学院、威海海洋职业学院、深圳职业技术
2、学院、黑龙江能源职业学院、南京信息职业技术学院、上海市信息技术学校、中国商业股份制企业经济联合会。本标准主要起草人:任成元、雷坟、钱曦、戴红光、庞青、刘毅、孙锋、史宝会、武春岭、李金祥、唐中剑、周连兵、李京文、常中华、朱咏梅、童红兵、王隆杰、王路权、聂明、王鹤、孙文升。声明:本标准的知识产权归属于北京京东世纪信息技术有限公司,未经北京京东世纪信息技术有限公司同意,不得印刷、销售。1范围本标准规定了自然语言处理应用开发职业技能等级对应的工作领域、工作任务及职业技能要求。本标准适用于自然语言处理应用开发职业技能培训、考核与评价,相关用人单位的人员聘用、培训与考核可参照使用。2规范性引用文件下列文件
3、对于本标准的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本标准。凡是不注日期的引用文件,其最新版本适用于本标准。GB/T5271.34-2006人工智能神经网络GB/T5271.31-2006人工智能机器学习3术语和定义GB/T5271.34-2006GB/T5271.31-2(X)6界定的以及下列术语和定义适用于本标准。3.1 人工智能ArtificialIntelligence人工智能是研窕、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。3.2 机器学习MachineLearning机器学习是人工智能的一门分支学科,主要研究算法并开发程序或
4、系统,用于根据输入数据构建预测模型。这种系统能利用训练得到的模型对同一分布中提取的新数据进行实用的预测。3.3 深度学习DeepLearning深度学习是机器学习的分支,是一种以人工神经网络为架构,对数据进行表征学习的算法。3.4 分i司wordsegmentation分词就是将用自然语言书写的文章、句、段等,经电子计算机处理后,以词为单位给以输出,为后续加工处理提供先决条件。3.5 词性标注Part-Of-Speechtagging词性标注也被称为语法标注或词类消疑,是语料库语言学中将语料库内单词的词性按其含义和上下文内容进行标记的文本数据处理技术。3.6 自然语言处理NaturalLang
5、uageProcessing自然语言处理研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。4适用院校专业4.1 参照原版专业目录中等职业学校:计算机应用、物联网技术应用、电子与信息技术、电子技术应用、软件与信息服务等专业。高等职业学校:电子信息工程技术、物联网应用技术、人工智能技术服务、计算机应用技术、软件技术、嵌入式技术与应用、大数据技术与应用、计算机信息管理、云计算技术与应用等专业。高等职业教育本科学校:电子信息工程、大数据技术与应用、软件工程等专业。应用型本科学校:人工智能、智能科学与技术、信息安全、计算机科学与技术
6、、软件工程、物联网工程、电子信息工程、电子科学与技术等专业。4.2 参照新版职业教育专业目录中等职业学校:计算机应用、大数据技术应用、物联网技术应用、电子信息技术、电子技术应用、软件与信息服务等专业。高等职业学校:电子信息工程技术、物联网应用技术、人工智能技术应用、计算机应用技术、软件技术、嵌入式技术与应用、大数据技术、云计算技术与应用等专业。高等职业教育本科学校:电子信息工程技术、大数据工程技术、软件工程技术、云计算技术、人工智能工程技术、嵌入式技术等专业。应用型本科学校:人工智能、智能科学与技术、信息安全、计算机科学与技术、软件工程、物联网工程、电子信息工程、电子科学与技术等专业。5面向职
7、业岗位(群)主要面向包含自然语言处理相关业务的互联网企业、传统企事业单位等的自然语言处理应用产品研发、系统集成、测试运维以及解决方案部门,从事数据标注、智能产品训练、自然语言处理应用开发、系统测试、算法调优等工作任务。面向的主要岗位包括自然语言处理工程师、数据标注师、人工智能算法测试员(NLP方向)、自然语言处理研发工程师、自然语言处理算法工程师等。6职业技能要求6.1 职业技能等级划分自然语言处理应用开发职业技能等级分为三个等级:初级、中级、高级,三个级别依次递进,高级别涵盖低级别职业技能要求。【自然语言处理应用开发】(初级):主要面向各类开展自然语言处理,物联网,智能机器人,数字服务等业务
8、的企事业单位,从事文本数据的采集、清洗、分词、标注等预处理工作,能根据项目测试计划和测试用例完成测试并形成测试报告,能根据项目要求对模型进行应用部署。【自然语言处理应用开发】(中级):主要面向各类开展自然语言处理,物联网,智能机器人,数字服务等业务的企事业单位,从事文本数据的采集、清洗、分词、标注等预处理工作及数据预处理质量控制,能够使用云服务商提供的接口进行自然语言处理相关的云服务应用开发,能够对基于机器学习的模型进行训练及推理应用。【自然语言处理应用开发】(高级):主要面向各类开展自然语言处理,物联网,智能机器人,数字服务等业务的企事业单位,从事指导验收数据预处理、系统架构、解决方案规划、
9、模型选型等工作,完成机器学习模型的建模、训练、调优、效果评估和工程应用开发的任务。6.2 职业技能等级要求描述表1自然语言处理应用开发职业技能等级要求(初级)工作领域工作任务职业技能要求1.语料采集与整理1.1语料采集1.1.1 具备将纸质资料进行扫描形成电子化语料库的能力。1.1.2 具备在国内外标准开放数据集(比如搜狗语料、人民日报语料等)中收集语料形成语料库的能力。1.1.3 具备使用适当的工具进行语料采集或从网络爬取文本等数据的能力1.2语料整理1.2.1具备能够根据实际需求,对段落、空格、字符等相关问题进行整理的能力。2.语料预处理2.1语料清洗2.1.1 完成语料清洗的常用工具及质
10、量的要求。2.1.2 具备能够根据实际需求,选择合适的工具进行语料清洗的能力。2.2分词模型训练2.2.1 完成分词相关的常用工具及质量的要求。2.2.2 具备能够根据实际需求,选择合适的工具进行分词的能力工作领域工作任务职业技能要求2.3词性标注与命名实体识别2.3.1 完成词性标注相关的常用工具及质量的要求。2.3.2 具备能够根据实际需求,选择合适的标注方法和工具进行标注的能力。3.应用项目测试3.1测试计划制定3.1.1 完成项目功能及需求的要求。3.1.2 具备能够根据项目计划与开发人员沟通,制定测试的内容、规则、环境等测试计划文档的要求。3.2测试用例编写3.2.1具备能够根据需求
11、设计编写测试用例的能力。3.2.3达到熟练掌握Excel等常用文档编辑工具的条件。3.2.3能够根据实际需求,选择合适的测试工具。3.3执行测试3.3.1 能够严格按测试用例执行测试。3.3.2 能够对开发人员修复bug后提交的新版本进行版本控制。3.3.3 具备处理缺陷处理流程,提交缺陷,跟踪缺陷至缺陷关闭的能力。3.4测试报告编写3.4.1能够根据测试结果编写测试报告。4.应用场景部署4.1应用场景认知4.1.1完成文本分类、情感分析、智能写作、智能分诊等应用场景的学习。4.2应用部署4.2.1 能够根据特定应用场景,完成数据预处理和应用部署的工作。4.2.2 能够根据特定应用场景,完成测
12、试数据准备,应用效果验证的工作。表2自然语言处理应用开发职业技能等级要求(中级)工作领域工作任务职业技能要求1.语料采集与整理1.1语料采集1.1.1 能够根据需要,设定采集数据的格式并保证采集数据的质量。1.1.2 能够根据需要,选择合适的数据采集工具或通过python编写爬取脚本。1.2语料整理1.2.1 能够根据实际需求,对段落、空格、字符等相关问题进行整理。1.2.2 能够根据实际需求,制定语料整理质量要求。1.2.3 能够根据质量要求,对整理结果进行质量审核。2.语料预处理2.1语料清洗2.1.1 能按照模型训练要求,制定语料清洗的方式和质量要求。2.1.2 能够根据实际需求,选择合
13、适的工具进行语料清洗O2.1.3 能够根据质量要求,对清洗结果进行质量审核。工作领域工作任务职业技能要求2.2分词模型训练2.2.1 能按照模型训练要求,制定分词的方式和质量要求O2.2.2 能够根据实际需求,选择合适的分词工具进行分词处理。2.2.3 能够根据质量要求,对分词结果进行质量审核。2.3词性标注与命名实体识别2.3.1能按照模型训练要求,制定词性标注的方式和质量要求。232能够根据实际需求,选择合适的标注方法和工具。2.3.3能够根据质量要求,对标注结果进行质量审核。3.自然语言处理云服务应用开发3.1云服务认知学习3.1.1 完成云厂商提供的自然语言处理相关云服务接口的学习。3
14、.1.2 根据实际项目需求,能够选择合适的云服务接口进行应用开发。3.1.3 根据实际项目需求,通过自定义工具,能够完成文本分类、智能写作、情感分析等符合自身要求的云服务。3.2云服务接口调用3.2.1 能够根据云服务接口说明,正确完成云服务账号的配置。3.2.2 能够根据云服务接口说明,完成正确的参数设置。3.2.3 能够根据云服务接口说明,正确完成接口调用。3.3云服务结果处理3.3.1 能够根据云服务接口说明,正确解析返回的结果。3.3.2 能够根据云服务接口说明,处理异常返回。3.3.3 能够根据反馈结果,完成结果的可视化展示。4.深度学习模型训练与应用4.1机器学习模型训练4.1.1
15、 完成机器学习模型训练方法的学习。4.1.2 完成有监督学习模型方法的学习。4.1.3 完成有监督学习模型的多种评估方法的学习。4.2深度学习模型认知4.2.1 完成TenSorFIoW开发环境的学习。4.2.2 完成卷积神经网络的人脸识别技术的学习。4.2.3 完成循环神经网络的门控算法学习。4.2.4 完成长短时记忆网络的算法学习。4.3深度学习模型训练4.3.1 完成深度学习框架TensorFlow、Mxnet等开发环境的学习。4.3.2 能够根据要求,完成模型训练的数据准备。4.3.3 能够根据要求,迭代数据,完成模型训练,得到模型文件。4.4深度学习模型推理应用4.4.1 能够根据应用场景,加载模型,对实际数据进行模型推理。4.4.2 能够根据应用场景,设计合理的预测服务接口方式,并完成接口开发。工作领域工作任务职业技能要求4.4.3能够根据应用场景,完成合适的模型转换,完成端侧部署和推理应用。表3自然语言处理应用开发职业技能等级要求(高级