《《Hadoop大数据技术原理与应用》课程教学大纲.docx》由会员分享,可在线阅读,更多相关《《Hadoop大数据技术原理与应用》课程教学大纲.docx(9页珍藏版)》请在优知文库上搜索。
1、Hadoop大数据技术原理与应用课程教学大纲课程编号:3250578学分:4学分学时:72学时(其中:讲课学时36上机学时:36)先修课程:Linux基础、关系数据库基础、程序设计基础、Java面向对象编程后续课程:Spark,Python编程基础、Python数据分析与应用适用专业:大数据应用技术一、课程的性质与目标大数据应用开发本课程是软件技术专业核心课程,大数据技术入门课程。通过学习课程使得学生掌握大数据分析的主要思想和基本步骤,并通过编程练习和典型应用实例加深了解;同时对Hadoop平台应用与开发的一般理论有所了解,如分布式数据收集、分布式数据存储、分布式数据计算、分布式数据展示。开设
2、本学科的目的是让学生掌握如何使用大数据分析技术解决特定业务领域的问题。完成本课程学习后能够熟练的应用大数据技术解决企业中的实际生产问题。二、教学条件要求操作系统:CenterOSHadoop版本:Hadoop2.7.4开发工具:Eclipse三、课程的主要内容及基本要求第I章初识Hadoop章名初识Hadoop学时4学习目标L了解什么是大数据及其特征2 .熟悉大数据的典型应用3 .了解Hadoop的发展历史及其版本4 .掌握Hadoop的生态体系知识点了解掌握重点难点什么是大数据大数据的特征研究大数据的意义大数据的应用场景Hadoop的发展历史Hadoop的优势Hadoop的生态体系Hadoo
3、p的版本第2章构建Hadoop集群章名Hadoop集群构建学时5学习目标1 .了解虚拟机的安装和克隆2 .熟悉Linux系统的网络配置和SSH配置3 .掌握Hadoop集群的搭建和配置4 .掌握Hadoop集群测试5 .熟悉Hadoop集群初体验的操作知识点了解掌握重点难点虚拟机安装虚拟机克隆Linux系统网络配置SSH服务配置Hadoop集群部署模式JDK安装Hadoop安装Hadoop集群配置格式化文件系统启动和关闭HadOoP集群通过UI界面查看Hadoop运行状态Hadoop集群初体验第3章HDFS分布式文件系统章名HDFS分布式文件系统学时5学习目标1 .了解HDFS演变2 .掌握H
4、DFS特点3 .掌握HDFS的架构和原理4 .掌握HDFS的Shell和JaVaApi操作知识点了解掌握重点难点HDFS的演变HDFS的基本概念HDFS的特点HDFS架构和原理HDFS的Shen操作HDFS的JavaAPI操作第4章MapReduce分布式计算系统章名MapReduce分布式计算框架学时8学习目标1 .理解MapReduce的核心思想2 .掌握MapReduce的编程模型3 .掌握MapReduce的工作原理4 .掌握MapReduce常见编程组件的使用知识点了解掌握重点难点MapReduce核心思想MapReduce编程模型MapReduce编程实例词频统计MapReduce
5、工作过程MapTask工作原理RecluceTask工作原理Shuffle工作原理MapReduce编程组件MapReduce运行模式MapReduce性能优化策略MapReduce经典案例倒排索引MapReduce经典案例数据去重MapReduce经典案例TopN第5章Zookeeper分布式协调服务章名HadoOP进阶学时10学习目标1 .了解Zookeeper的概念和特性2 .理解Zookeeper数据模型3 .掌握Zookeeper的Watch机制和选举机制4 .掌握Zookeeper的集群部署5 .掌握Zookeeper的Shell操作和JavaAPI操作6 .熟悉Zookeeper
6、的应用场景知识点了解掌握重点难点Zookeeper的简介Zookeeper的特性Zookeeper集群角色Zookeeper的数据模型Zookeeper的Watch机制Zookeeper的选举机制Zookeeper分布式集群部署ZookeeperShell操作ZookeeperJavaAPI操作Zookeeper典型应用场景第6章Hadoop2.0新特性章名Hadoop2.0新特性学时3学习目标1 .掌握YARN的体系结构和工作流程2 .掌握HDFS的高可用架构3 .会搭建Hadoop高可用集群知识点了解掌握重点难点Hadoop2.0改进与提升YARN体系结构YARN工作流程HDFSHA的搭建
7、方式Hadoop的高可用架构启动HadoopHA方式第7章Hive数据仓库章名Hive数据仓库学时7学习目标L了解HiVe的相关功能和特点2 .熟悉HiVe的简单安装和配置3 .掌握HiVeQL的相关操作知识点了解掌握重点难点数据仓库简介数据仓库的结构数据仓库数据模型Hive简介Hive系统架构HiVe工作原理Hive数据模型JHive安装模式Hive的管理方式Hive内置数据类型Hive的操作方式第8章Flume日志采集系统章名Flume日志采集系统学时6学习目标1 .了解Flume的作用2 .熟悉Flume的运行机制3 .掌握FIUme的安装部署4 .熟悉Flume的可靠性保证5 .熟悉案
8、例日志采集的编写知识点了解掌握重点难点Flume简介Flume运行机制Flume日志采集系统结构Flume基本使用Flume安装配置FlumeSourcesFlumeChannelsFlumeSinksFlume负载均衡Flume故障转移Flume拦截器第9章Azkaban工作流管理器章名Azkaban工作流管理器学时5学习目标L了解Azkaban的结构2 .掌握Azkaban的部署3 .熟悉Azkaban的基本使用知识点了解掌握重点难点工作流管理器简介Azkaban特点Azkaban组织结构Azkaban部署模式Azkaban安装配置Azkaban启动方式AzkabanJobAzkaban工
9、作流Azkaban嵌入流依赖任务调度管理MapReduce任务调度管理HiVe脚本任务调度管理第10章Sqoop数据迁移章名Sqoop数据迁移学时3学习目标L了解Sqoop基本概念2 .掌握Sqoop安装配置3 .熟悉SqooP常用的相关指令4 .掌握使用Sqoop进行导入导出知识点了解掌握重点难点Sqoop简介Sqoop导入导出工作原理Sqoop安装配置SqOOP指令介绍MySQL表数据导入HDFS增量导入MySQL表数据导入HiVeMySQL表数据子集导入Sqoop数据导出第11章综合项目一一网站流量日志数据分析系统章名综合项目一一网站流量日志数据分析系统学时7学习目标1 .熟悉日志分析系
10、统的架构2 .熟悉系统环境搭建的步骤3 .掌握日志分析系统业务流程4 .掌握人均浏览页面模块的实现方法知识点了解掌握重点难点系统背景介绍系统架构设计模块开发一数据预处理模块开发一数据仓库开发模块开发一数据分析模块开发一数据导出模块开发一日志分析系统报表展示四、学时分配章目讲课上机合计第1章初识Hadoop2学时0学时2学时第2章构建Hadoop集群4学时4学时8学时第3章HDFS分布式文件系统4学时4学时8学时第4章MapReduce分布式计算系统3学时3学时6学时第5章Zookeeper分布式协调服务3学时3学时3学时第6章HadOOP2.0新特性2学时2学时4学时第7章HiVe数据仓库4学时4学时8学时第8章HBase分布式数据库4学时4学时8学时第9章FlUnIe日志采集系统3学时3学时6学时第10章Azkaban工作流管理器3学时3学时6学时第11章SqooP数据迁移2学时2学时4学时第12章综合项目一一网站流量日志数据分析系统2学时4学时6学时合计36学时36学时72学时五、考核模式与成绩评定办法本课程为考试课程,期末考试采用百分制的闭卷考试模式。学生的考试成绩由平时成绩(30%)和期末考试(70%)组成,其中,平时成绩包括出勤(5%)、作业(5%)、上机成绩(20%)o六、选用教材和主要参考书本大纲是参考教材Hadoo