《PySpark大数据技术与应用教学教案.docx》由会员分享,可在线阅读,更多相关《PySpark大数据技术与应用教学教案.docx(32页珍藏版)》请在优知文库上搜索。
1、第1章PySpark大数据分析概述教案课程名称:PySPark大数据分析与应用课程类别:必修适用专业:大数据技术类相关专业总学时:64学时(其中理论32学时,实验32学时)总学分:4.0学分本章学时:6学时一、材料清单(1)PySpark大数据分析与应用教材。(2)配套PpT。(3)引导性提问。(4)探究性问题。(5)拓展性问题。二、教学目标与基本要求1.教学目标(1)理解大数据的核心概念,掌握大数据分析的基本流程。(2)了解大数据分析在不同应用场景中的实际作用。(3)学习并介绍大数据技术体系的关键组成部分。(4)深入了解SPark大数据技术框架,包括其特点和运行架构。(5)掌握SparkRD
2、D的概念和应用。(6)熟悉SPark生态圈内的各种工具和组件。(7)学习使用PySpark进行大数据分析的方法。2.基本要求(1)学习并理解大数据的概念和重要性,了解大数据分析的流程和应用场景。(2)学习并掌握Spark大数据技术框架的基本知识和特点,了解Spark的运行架构和流程。(3) 了解开源大数据各类框架。(4)学习并熟悉SParkRDD的概念和操作,了解SPark生态圈中的各个组件和工具。(5)学习并学会使用PySPark进行大数据分析,能够应用所学知识解决实际问题。三、问题1 .引导性提问引导性提问需要教师根据教材内容和学生实际水平,提出问题,启发引导学生去解决问题,提问,从而达到
3、理解、掌握知识,发展各种能力和提高思想觉悟的目的。(1)什么是大数据?它在当今时代的重要性是什么?(2)大数据分析的流程包括哪些步骤?有哪些常见的应用场景?(3)说说开源大数据技术体系。(4) SPark大数据技术框架有哪些特点?它的运行架构和流程是怎样的?2 .探究性问题探究性问题需要教师深入钻研教材的基础上精心设计,提问的角度或者在引导性提问的基础上,从重点、难点问题切入,进行插入式提问。或者是对引导式提问中尚未涉及但在课文中又是重要的问题加以设问。(1)如何利用大数据分析来帮助企业做出更好的决策?请举例说明。(2) SParkRDD是什么?它与传统的数据处理方法相比有哪些优势?(3) P
4、ySPark在大数据分析中的应用有哪些?请举例说明。3 .拓展性问题拓展性问题需要教师深刻理解教材的意义,学生的学习动态后,根据学生学习层次,提出切实可行的关乎实际的可操作问题。亦可以提供拓展资料供学生研习探讨,完成拓展性问题。(I)除了SPark,还有哪些常用的大数据处理框架?它们之间有什么区别和优劣?(2)大数据技术在人工智能领域中有哪些应用?请举例说明。(3)什么是SPark生态圈?企业如何运用SPark构建大数据架构?四、主要知识点、重点与难点1 .主要知识点(1)大数据的概念。(2)大数据分析的概念。(3)大数据分析的流程。(4)大数据分析应用场景。(5)大数据技术体系。(6) SP
5、ark技术框架简介、特点、架构及运行流程。(7) RDD产生背景、概念与特点、基本操作(8) PySPark简介及各功能子模块。2 .重点(1)大数据分析的概念、流程与应用场景。(2) SPark技术框架简介、特点、架构及运行流程。(3) RDD概念与特点、基本操作。(4) )PySpark简介及各功能于模块。3.难点(1) SPark技术框架简介、特点、架构及运行流程。(2) RDD概念与特点、基本操作。(3) PySPark简介及各功能子模块。五、教学过程设计(4) 论教学过程(1)大数据概念。(2)大数据分析概念。(3)大数据分析流程。(4)大数据分析应用场景。(5)大数据分析技术体系。
6、(6) SPark简介。(7) SPark特点。(8) SPark运行架构与流程。(9) SparkRDDo(10) SPark生态圈。(11) PySPark简介。(12) PySpark子模块。2.实验教学过程关于本章的RDD操作,请在学完第二章后自行完成。六、教材与参考资料1 .教材戴刚,张良均.PySpark大数据分析与应用M.北京:人民邮电出版社.2024.2 .参考资料1肖芳,张良均.SPark大数据技术与应用(第2版)(微课版)M.北京:人民邮电出版社.2022.2王哲,张良均.Hadoop与大数据挖掘(第2版)M.北京:机械工业出版社.2022.3曾文权,张良均.Python数
7、据分析与应用(第2版)(微课版)M.北京:人民邮电出版社.2022.4张良均,谭立云.Python数据分析与挖掘实战(第2版)M.北京:机械工业出版社.2019.第2章PySpark安装配置教案课程名称:PySPark大数据分析与应用课程类别:必修适用专业:大数据技术类相关专业总学时:64学时(其中理论32学时,实验32学时)总学分:4.0学分本章学时:8学时七、材料清单(6)PySpark大数据分析与应用教材。(7)配套PPT。(8)引导性提问。(9)探究性问题。(10)拓展性问题。八、教学目标与基本要求3 .教学目标根据目前数据分析发展状况,将数据分析具象化。而后介绍数据分析的概念,流程,
8、目的以及应用场景。阐述使用Python进行数据分析的优势。列举说明PythOn数据分析重要库的功能。紧接着阐述Anaconda简介,实现在Windows和Linux两个系统下Anaconda数据分析环境。最后展现Python数据分析工具JupyterNotebook的优异特性及使用方法。为后学课程学习搭建数据分析环境,首先介绍在windows系统中搭建单机模式的数据分析环境,能够运行PySPark程序代码;然后,介绍在LinUX系统中搭建分布式模式的数据分析环境,了解SPark分布式模式的运行机理,进一步体会PySPark大数据处理能力。最后介绍PythOn中重要的数据结构(元组、列表、字典)
9、和函数式编程。4 .基本要求(1)掌握单机模式和分布式模式下PySpark开发环境的搭建过程。(2)熟悉LinUX操作系统虚拟机的安装过程。(3)掌握单机模式和分布式模式下HadoOP集群配置。(4)掌握分布式模式下SPark集群配置。(5)掌握PylhOn重要的数据结构及函数编程。九、问题5 .引导性提问引导性提问需要教师根据教材内容和学生实际水平,提出问题,启发引导学生去解决问题,提问,从而达到理解、掌握知识,发展各种能力和提高思想觉悟的目的。(5)搭建单机模式的PySPark开发环境需要哪些组件。(6)单机模式的PySPark开发环境有哪些优缺点。(7)搭建分布式模式的PySPark开发
10、环境需要哪些组件。(8)分布式模式的PySPark开发环境有哪些优缺点。(9)单机模式和分布式模式PySPark开发环境的应用场景。6 探究性问题探究性问题需要教师深入钻研教材的基础上精心设计,提问的角度或者在引导性提问的基础上,从重点、难点问题切入,进行插入式提问。或者是对引导式提问中尚未涉及但在课文中又是重要的问题加以设问。(4)单机模式中,安装HadoOP组件的作用?(5)大数据分析中数据库与HiVe的区别是什么?(6)分布式模式中,计算机节点为什么要建立互信机制?7 .拓展性问题拓展性问题需要教师深刻理解教材的意义,学生的学习动态后,根据学生学习层次,提出切实可行的关乎实际的可操作问题
11、。亦可以提供拓展资料供学生研习探讨,完成拓展性问题。(4)分布式模式下,使用HDFS文件系统存储大文件的优势。(5) Spark与Hadoop进行数据分析有哪些优缺点。(6)使用Python语言进行数据分析的优势。十、主要知识点、重点与难点8 .主要知识点(1)掌握单机模式和分布式模式下PySpark开发环境的搭建过程。(2)安装LinUX操作系统虚拟机。(3)开发环境中的各组件的安装与配置。(4)掌握PythOn重要的数据结构及函数编程。9 .重点(5)搭建单机模式的PySPark开发环境。(6)搭建分布式模式的PySPark开发环境。10 .难点搭建分布式模式的PySPark开发环境。十一
12、、教学过程设计11 .理论教学过程(13)在Windows系统中安装JDK。(14) 在Windows系统中安装Anaconda。(15) 在WindOWS系统中安装HadoOp。(16) 在Windows系统中安装MySQLo(17)在Windows系统中安装Hiveo(18)在Windows系统中配置PySpark模块。(19)在WindOWS系统中安装LinUX虚拟机。(20)在LinUX系统中安装Java。(21)在LinUX系统中搭建HadOOP分布式集群。(22)在LinUX系统中安装MySQL数据库。(23)在LinUX系统中安装HiVe数据仓库。(24)在LinUX系统中搭建S
13、Park完全分布式集群。(25) Python中的常用数据结构。(26) Python函数式编程基础。12 .实验教学过程(1)在Windows系统中安装JDKo(2) 在Windows系统中安装Anacondao(3)在WindOWS系统中安装HadOOPo(4)在Windows系统中安装MySQLo(5)在Windows系统中安装Hiveo(6)在WindOWS系统中配置PySPark模块。(7)在WindOWS系统中安装LinUX虚拟机。(8)在LinUX系统中安装Java。(9)在LinUX系统中搭建HadOoP分布式集群。(10)在LinUX系统中安装MySQL数据库。(三)在Lin
14、UX系统中安装HiVe数据仓库。(12)在LinUX系统中搭建SPark完全分布式集群。十二、教材与参考资料13 .教材戴刚,张良均.PySpark大数据分析与应用M.北京:人民邮电出版社.2024.14 .参考资料11肖芳,张良均.SPark大数据技术与应用(第2版)(微课版)M.北京:人民邮电出版社.2022.2王哲,张良均.HadOoP与大数据挖掘(第2版)M.北京:机械工业出版社.2022.3曾文权,张良均.PythOn数据分析与应用(第2版)(微课版)M.北京:人民邮电出版社.2022.41张良均,谭立云.Pylhon数据分析与挖掘实战(第2版)M.北京:机械工业出版社.2019.第
15、3章基于PySpark的DataFrame操作教案课程名称:PySPark大数据分析与应用课程类别:必修适用专业:大数据技术类相关专业总学时:64学时(其中理论32学时,实验32学时)总学分:4.0学分本章学时:10学时十三、材料清单(Il)PySpark大数据分析与应用教材。(12)酉己套PPT。(13)引导性提问。(14)探究性问题。(15)拓展性问题。十四、教学目标与基本要求15.教学目标(1)了解SParkSQL的发展历程和主要功能。(2) 了解DataFrame概念。(3) 了解PySPark.sql模块及其核心类。(4)掌握基于PySparkSQL的DataFrame的创建方法。(5)掌握基于PySparkSQL的DataFrame的基础操作。2.基本要求(6)学习并理解SPa