《GZ-2022041 大数据技术与应用赛项正式赛卷完整版包括附件-2022年全国职业院校技能大赛赛项正式赛卷.docx》由会员分享,可在线阅读,更多相关《GZ-2022041 大数据技术与应用赛项正式赛卷完整版包括附件-2022年全国职业院校技能大赛赛项正式赛卷.docx(26页珍藏版)》请在优知文库上搜索。
1、2022年全国职业院校技能大赛高职组“大数据技术与应用”赛项赛卷(6卷)任务书参赛队编号:背景描述工业互联网是工业全要素、全产业链、全价值链的全面连接,是人、机、物、工厂互联互通的新型工业生产制造服务体系,是互联网从消费领域向生产领域、从虚拟经济向实体经济拓展的核心载体,是建设现代化经济体系、实现高质量发展和塑造全球产业竞争力的关键支撑。党中央、国务院高度重视工业互联网发展,习近平总书记连续四年对推动工业互联网发展做出重要指示。加快发展工业互联网产业,不仅是各国顺应产业发展大势,抢占产业未来制高点的战略选择,也是我国推动制造业质量变革、效率变革和动力变革,实现高质量发展的客观要求。为完成工业大
2、数据分析工作,你所在的小组将应用大数据技术,以SCaIa作为整个项目的基础开发语言,基于大数据平台综合利用HivesSpark、FlinksVueJs等技术,对数据进行处理、分析及可视化呈现,你们作为该小组的技术人员,请按照下面任务完成本次工作。模块A:大数据平台搭建(容器环境)(15分)环境说明:服务端登录地址详见各模块服务端说明。补充说明:宿主机可通过ASbrU工具或SSH客户端进行SSH访问;相关软件安装包在宿主机的/opt目录下,请选择对应的安装包进行安装,用不到的可忽略;所有任务中应用命令必须采用绝对路径;进入MaSter节点的方式为dockerexec-itmasterbinbas
3、h进入SIaVel节点的方式为dockerexec-itslave1binbash进入SIaVe2节点的方式为dockerexec-itslave2binbashMySQL已在容器的MaSter中安装完毕,用户名/密码为root/123456任务一:HadooP完全分布式安装配置本环节需要使用root用户完成相关配置,安装HadoOP需要配置前置环境。具体要求如下:1、从宿主机/opt目录下将文件hadoop-2.7.7.tar.gz.jdk8u212linuxx64.tar.gz复制到容器master中的optsoftware路径中(若路径不存在,则需新建),将master节点JDK安装包解
4、压到optmodule路径中(若路径不存在,则需新建),将JDK解压命令复制并粘贴至客户端桌面【Release重命名为工位号模块A提交结果.docx】中对应的任务序号下;2、修改容器中etcprofile文件,设置JDK环境变量并使其生效,配置完毕后在master节点分别执行“java-version”和“javac”命令,将命令行执行结果分别截图并粘贴至客户端桌面【Release重命名为工位号模块A提交结果.docx】中对应的任务序号下;3、请完成host相关配置,将三个节点分别命名为master、slave1sslave2,并做免密登录,用SCP命令并使用绝对路径从master复制JDK解
5、压后的安装文件到SIaVe1、SlaVe2节点(若路径不存在,则需新建),并配置SlaVe1、SiaVe2相关环境变量,将全部SCP复制JDK的命令复制并粘贴至客户端桌面【Release重命名为工位号模块A提交结果.docx】中对应的任务序号下;4、在master将HadOOP解压到optmodule(若路径不存在,则需新建)目录下,并将解压包分发至SlaVe1、SlaVe2中,其中master、slave1sSIaVe2节点均作为datanode,配置好相关环境,初始化HadOOP环境namenode,将初始化命令及初始化结果截图(截取初始化结果日志最后20行即可)粘贴至客户端桌面【Rele
6、ase重命名为工位号模块A提交结果.docx】中对应的任务序号下;5、启动HadoOP集群(包括hdfs和yarn),使用jps命令查看master节点与SIaVel节点的JaVa进程,将jps命令与结果截图粘贴至客户端桌面【Release重命名为工位号模块A提交结果.docx】中对应的任务序号下。任务二:SqooP安装配置本环节需要使用root用户完成相关配置,已安装Had。P及需要配置前置环境,具体要求如下:1、从宿主机/opt目录下将文件sqoop-1.4.2.bin_hadoop-2.0.0-alpha.tar.gzsmysql-COnneCtorjava5.1.47.jar复制至IJ
7、容器master中的/OpVsoftware路径中(若路径不存在,则需新建),将容器master节点SqOOP安装包解压到optmodule目录下,将解压命令复制并粘贴至客户端桌面Release重命名为工位号模块A提交结果.docx】中对应的任务序号下;2、完善其他Sq。P相关配置,设置Sq。P环境变量,并使环境变量生效,执行命令SqoOPVerSion并将命令与其结果截图粘贴至客户端桌面【Release重命名为工位号模块A提交结果.docx】中对应的任务序号下;3、测试Sq。P连接容器master节点的MySQL数据库是否成功并展示所有的database,并将连接命令与结果截图粘贴至客户端桌
8、面【Release重命名为工位号模块A提交结果.docx】中对应的任务序号下。任务三:HiVe安装配置本环节需要使用root用户完成相关配置,已安装Had。P及需要配置前置环境,具体要求如下:1、从宿主机/oPt目录下将文件apache-hive-2.34bin.tar.gz、mysql-connector-java-5.1.47.jar复制至IJ容器master中的/oPtySOftWare路径中(若路径不存在,则需新建),将MaSter节点HiVe安装包解压到/OpVmoduIe目录下,将解压命令复制并粘贴至客户端桌面【Release重命名为工位号模块A提交结果.docx】中对应的任务序号
9、下;2、设置HiVe环境变量,并使环境变量生效,执行命令hive-version并将命令与结果截图并粘贴至客户端桌面【Release重命名为工位号模块A提交结果.docx】中对应的任务序号下;3、完成相关配置并添加所依赖的包,将MySQL数据库作为HiVe元数据库。初始化HiVe元数据,并通过SChematoOI相关命令执行初始化,将初始化结果截图(范围为命令执行结束的最后10行)粘贴至客户端桌面Release重命名为工位号模块A提交结果.docx】中对应的任务序号下。模块B:离线数据处理(25分)环境说明:服务端登录地址详见各模块服务端说明。补充说明:各主机可通过ASbrU工具或SSH客户端
10、进行SSH访问;MaSter节点MySQL数据库用户名/密码:root/123456(已配置远程连接);HiVe的配置文件位于optapachehive-2.3.4-binconfSPark任务在Yam上用CIient运行,方便观察日志。注:该SPark版本无法进行本地调试,请打包上传集群调试。任务一:数据抽取编写SqooP脚本,将MySQL库中表ChangeReCOrd、BaseMachinexMachineDatasProdUCeReCord全量抽取到HiVe的OdS库中对应表ChangereCOrd、basemachine.machinedata,producerecordo(提示:可通
11、过SqooP将mysql的数据先加载到hdfs,然后再通过hive中loaddatainpath的方式为将数据加载到分区表中,同时hive表中默认的分隔符为t)1、抽取MySQL的ShtCUndUStry库中ChangeReCord表的全量数据进入HiVe的OdS库中表ChangereCOrd,字段排序、类型不变,同时添加静态分区,分区字段为etldate,类型为String,且值为当前比赛日的前一天日期(分区字段格式为yyyyMMdd)0使用hivec执行ShoWPartitiOnSOdS.ChangereCord命令,将Sq。P提交命令及hiveCli的执行结果分别截图粘贴至客户端桌面【R
12、elease重命名为工位号模块B提交结果.docx】中对应的任务序号下;2、抽取MySQL的ShtCUndUStry库中BaSeMaChine表的全量数据进入HiVe的OdS库中表basemachine,字段排序、类型不变,同时添加静态分区,分区字段为etldate,类型为String,且值为当前比赛日的前一天日期(分区字段格式为yyyyMMdd)o使用hivecli执行ShoWPartitionSodS.basemachine命令,将Sq。P提交命令及hiveCIi的执行结果分别截图粘贴至客户端桌面【Release重命名为工位号模块B提交结果.docx】中对应的任务序号下;3、抽取MySQL
13、的ShtcundUStry库中ProdUCeReCOrd表的全量数据进入Hive的OdS库中表PrOdUCereCOrd,易IJ除ProdUCePgCode字段,其余字段排序、类型不变,同时添加静态分区,分区字段为etldate,类型为String,且值为当前比赛日的前一天日期(分区字段格式为yyyyMMdd)。使用hiveci执行ShoWPa巾tionsods.producerecord命令,将SqooP提交命令及hiveCli的执行结果分别截图粘贴至客户端桌面【Release重命名为工位号模块B提交结果.docx】中对应的任务序号下;4、抽取MySQL的ShtCundUStry库中MaCh
14、ineData表的全量数据进入HiVe的OdS库中表machinedata,字段排序、类型不变,同时添加静态分区,分区字段为etldate,类型为String,且值为当前比赛日的前一天日期(分区字段格式为yyyyMMdd)0使用hivec执行ShoWPartitiOnSodSmachinedata命令,将Sq。P提交命令及hiveCli的执行结果分别截图粘贴至客户端桌面【Release重命名为工位号模块B提交结果.docx】中对应的任务序号下。任务二:数据清洗编写HiVeSQL代码,将OdS库中相应表数据全量抽取到HiVe的dwd库中对应表中。表中有涉及到timestamp类型的,均要求按照y
15、yyyMMddHH:mm:ss,不记录毫秒数,若原数据中只有年月日,则在时分秒的位置添加00:00:00,添加之后使其符合yyyyMMddHH:mm:sso1、抽取OdS库中ChangereCord的全量数据进入HiVe的dwd库中表fact_change_record,抽取数据之前需要对数据根据Changeid和ChangemaChineid进行联合去重处理,分区字段为etldate且值与OdS库的相对应表该值相等,并添加dwd_insert_usersdwdJnsertJime.dwd_modify_usersdwd_modify_time四歹IJ,其中dwd_insert_usersdwd_modify_uSer均填写“useri,dwd_insert_timesdwd_modify_time均填写当前操作时间,并进行数据类型转换。使用hiveCli按照Change_machine_id降序、Change_id升序排序,查询前1条数据,将结果截图粘贴至客户端桌面【Release重命名为工位号模块B提交结果.docx】中对应的任务序号下;2、抽取OdS库中basemachine的全量数据进入HiVe的dwd库中表dim_machine,抽取数据之前需要对数据根据basemachineid进行去重处理。分区字段为etldate且值与OdS库的相对应表该值相