大数据教程01第一章大数据概述.pptx

上传人:王** 文档编号:283487 上传时间:2023-04-27 格式:PPTX 页数:52 大小:2.80MB
下载 相关 举报
大数据教程01第一章大数据概述.pptx_第1页
第1页 / 共52页
大数据教程01第一章大数据概述.pptx_第2页
第2页 / 共52页
大数据教程01第一章大数据概述.pptx_第3页
第3页 / 共52页
大数据教程01第一章大数据概述.pptx_第4页
第4页 / 共52页
大数据教程01第一章大数据概述.pptx_第5页
第5页 / 共52页
大数据教程01第一章大数据概述.pptx_第6页
第6页 / 共52页
大数据教程01第一章大数据概述.pptx_第7页
第7页 / 共52页
大数据教程01第一章大数据概述.pptx_第8页
第8页 / 共52页
大数据教程01第一章大数据概述.pptx_第9页
第9页 / 共52页
大数据教程01第一章大数据概述.pptx_第10页
第10页 / 共52页
亲,该文档总共52页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《大数据教程01第一章大数据概述.pptx》由会员分享,可在线阅读,更多相关《大数据教程01第一章大数据概述.pptx(52页珍藏版)》请在优知文库上搜索。

1、大数据基础教程Fundamentals of Big Data教材王成良,廖军:大数据基础教程清华大学出版社,2020年参考书林子雨:大数据技术原理与应用人民邮电出版社.2017.1宋旭东:大数据技术基础清华大学出版社,2020年大数据基础教程 Fundamentals of Big Data1.1 大数据发展背景概述1.2 大数据相关概念及特点1.3 大数据应用过程1.4 大数据技术1.5 大数据应用行业1.6 大数据的挑战和机遇本章目标了解大数据的发展背景掌握大数据的基本特点和基本应用流程了解大数据在行业中的应用了解大数据在发展中的机遇和挑战1.1.1 引言1.1.2 发展历程大数据指的是

2、无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要采用新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据还代表着处理这些数据集合或信息资产的技术手段,也代表了信息技术的新时代。随着IT社区日益庞大,全球的大数据技术和服务市场,都有着巨大的收益。大数据的市场融合技术以及服务,正在形成迅猛发展的势头。学习掌握大数据技术,不仅是提高自身的竞争优势,同时也是顺应时代的要求。1.1.1 引言1.1.2 发展历程20012008200920102011提出数据增长的挑战和机遇有三个方向:量、速与多变。提出“BigData”的概念。大数

3、据得到较为广泛的认可。欧洲领先的研究型图书馆与科技信息研究机构建立伙伴关系。工信部发布的物联网“十二五规划”,信息处理技术被作为4 项关键技术创新工程之一被提出来。德国联邦政府启动“数字德国2015”战略,实现全球互联。20122013201420152016联合国在纽约发布大数据政务 的 白 皮 书大数据促发展:挑战与机遇。互联网巨头发布机器学习产品。“大数据”成为国内热议词汇。大数据的在企业中的应用比例逐步上升。大数据“十三五”规划出台。1.1 大数据发展背景概述1.2 大数据相关概念及特点1.3 大数据应用过程1.4 大数据技术1.5 大数据应用行业1.6 大数据的挑战和机遇1.2.1

4、大数据特点1.2.2 相关概念介绍大数据基本特点可以用“4V”来描述,也就是容量(Volume)、多样(Variety)、价值(Value)和速度(Velocity)。“4V”说明说明容量容量(Volume)大数据的数据量很大,超大的数据量决定了需要考虑的数据价值和潜在信息;同时也决定了计算的规模。多样多样(Variety)多样指大数据数据类型的多样性,大数据包含着半结构化、非结构化的数据。价值价值(Value)海量的大数据中,真正有价值的数据可能很少,因此从整体来看,大数据的价值密度低。速度速度(Velocity)速度一方面指的数据增长迅速,另一方面也表示了大数据的时效性。1.2.1 大数据

5、特点1.2.2 相关概念介绍1.云计算(Cloud computing)NIST定义:云计算是一种按使用量付费的模式。中国云计算专家刘鹏教授定义:“云计算是通过网络提供可伸缩的廉价的分布式计算能力。” 2.集群(Clustering)指将多台计算机或者服务器通过物理上以及软件上的部署,使其像一台计算机一样被使用。集群强调的是扩展。3.分布式(Distribute)指是将任务或者数据切分到不同的服务器进行计算或者存储,分布式强调的是切分。4.数据挖掘(Data mining)通过算法从海量的数据中搜寻隐藏的有意义的信息,这一过程被称之为数据挖掘。1.1 大数据发展背景概述1.2 大数据相关概念及

6、特点1.3 大数据应用过程1.4 大数据技术1.5 大数据应用行业1.6 大数据的挑战和机遇1.3.1 数据采集1.3.2 预处理1.3.3 数据存储管理1.3.4 数据挖掘分析对数据进行采集是大数据应用生命周期中的第一个环节,通常是使用ETL(Extract-Transform-Load)工具将分布的、异构的数据源中的数据。采集的方法主要包括以下三类:1.系统日志采集系统日志采集:收集业务日志数据供离线和在线的分析系统使用。目前常用的开源日志收集系统有Flume、Scribe等。2.网络数据采集网络数据采集:网络数据采集是指通过网络爬虫或调用网站公开API等方式从网站上获取数据的过程。3.数

7、据库采集数据库采集:一些企业会使用传统的关系型数据库MySQL或者Oracle等来存储数据。此外,像Redis和MongoDB这样的NoSQL数据库也常用于数据库的采集。1.3.1 数据采集1.3.2 预处理1.3.3 数据存储管理1.3.4 数据挖掘分析数据预处理是对采集到的原始数据进行清洗、填补、平滑、合并、规格化以及检查一致性等操作的过程。数据预处理通常包含以下三个部分:1.数据清理数据清理:对源数据进行过滤、去噪,从中提取出有效的数据,主要的处理内容包含:遗漏值处理、噪音数据处理、不一致数据处理。2.数据集成与变换数据集成与变换:将多个数据源中的数据整合到一个数据库的过程。集成数据需要

8、重点解决模式匹配、数据冗余、数据值冲突检测与处理三个问题。3.数据规约数据规约:数据规约主要包括:数据聚集、维规约、数据压缩、数值规约和概念分层等。使用数据规约技术可以将数据集进行规约表示,在减小数据集规模的同时能保持原数据的完整性。1.3.1 数据采集1.3.2 预处理1.3.3 数据存储管理1.3.4 数据挖掘分析将采集到的数据进行预处理后,需要将其存储起来,便于管理和调用。用来对大数据进行存储和管理的数据库系统:1.分布式文件存储系统分布式文件存储系统:主要特点是将复杂的问题进行分解,将大任务分解为多个小任务,然后通过使用多个处理器或多个计算机节点来进行计算从而提高解决问题的效率。2.N

9、oSQL数据库数据库:采用异于传统关系型数据库的设计思想,采用新的方案来解决传统关系型数据库在扩展性方面的不足。3.NewSQL数据库数据库:NewSQL数据库既能提供SQL数据库的质量保证,也能提供NoSQL数据库的可扩展性。1.3.1 数据采集1.3.2 预处理1.3.3 数据存储管理1.3.4 数据挖掘分析对数据进行挖掘分析的主要目的是找出隐藏在大量数据中有价值的信息,将其进行提炼,发现其中的内在规律,并根据实际的业务需求,将这些有价值的信息应用到决策中。对大数据挖掘分析的研究主要有以下几个方面:1.可视化分析可视化分析:将数据进行可视化,可以使数据的特点和规律更加直观清晰的展示出来,容

10、易被读者接收,还能提高分析效率,加快分析速度。2.预测性分析预测性分析:帮助分析结构化和非结构化数据中的趋势、模式和关系,并运用这些指标来洞察预测未来事件,为决策者进行决策提供帮助支持3.数据数据语义引擎语义引擎:是语义技术最直接的应用,让用户更快、更准确、更全面地获取到所需要的信息。4.数据质量和数据管理数据质量和数据管理 :保证结果的真实性和价值性。1.1 大数据发展背景概述1.2 大数据相关概念及特点1.3 大数据应用过程1.4 大数据技术1.5 大数据应用行业1.6 大数据的挑战和机遇1.4.1 大数据集群1.4.2 大数据技术架构大数据集群是指由网络互相连接的多个独立服务器多个独立服

11、务器的集合。主要用于解决数据库的负载均衡以及增加数据库服务器的可持续性,高可用性等问题。大数据集群的模式大数据集群的模式负载均衡和冗余负载均衡和冗余基于 DNS 负载均衡是通过 DNS 服务中的域名解析来实现负载均衡,在 DNS服务器中,可以为多个不同的地址配置同一个名字,而最终查询这个名字的客户机将在解析这个名字时得到其中一个地址。冗余模式,主要分为全冗余备份、互为冗余备份、中央备份服务器三种模式。大数据集群的大数据集群的部署部署硬件部署、软件部署和高可用性部署硬件部署、软件部署和高可用性部署硬件的部署:大数据集群目前支持所有主流的操作系统,如CentOS, Fedora, Ubuntu,

12、AIX, Windows, SLES, Debian, RedHat等。软件的部署:在硬件集群已经建立完成的基础上,并行在各个节点上安装大数据分析处理系统,如Spark Cluster。高可用性部署:在硬件和软件部署的基础上,要达到高性能的部署,通常需要有主节点和多个次节点构成,以保证对海量数据的高效分布式并行计算。大数据集群的大数据集群的优点优点高可扩展性集群。高可扩展性集群。多个服务器可以执行相同的应用程序和数据库操作。高可用性群集。高可用性群集。高可用性是指防止系统故障或自动从故障中恢复而无需操作员介入的能力。高可管理性集群。高可管理性集群。系统管理员只需要便捷的通过远程管理一个甚至是一

13、组集群。高安全性集群。高安全性集群。集群可以定时定期对整个集群系统进行备份,以保证数据的安全和可追溯性。同时如果集群崩溃或出重大故障,集群可通过容灾机制快速恢复整个系统。1.4.1 大数据集群1.4.2 大数据技术架构HDFS(Hadoop Distributed File System)HDFS是Hadoop的一个分布式文件系统,设计用于在商品硬件上运行。HDFS 采用的是主/从(Master/Save)架构。Master是Namenode,Slave是Datanode,HDFS集群由一个名称节点(Namenode)和一定数量的数据节点(Datanode)组成。其中 Namenode控制客户

14、端对数据的访问和负责管理文件系统命名空间,是一个负责管理文件系统命名空间和客户端访问文件的中央服务器。Datanode通常用于管理连接到节点的存储,即管理正在运行的节点上的数据存储。在内部,Datanode节点包含有一个或多个块(blocks)并将数据存储在其中,HDFS是使用Java语言构建的;任何支持Java的机器都可以运行NameNode或DataNode。HDFS体系结构图体系结构图MapReduceMapReduce是一个用于处理和生成大型数据集的编程模型,其在集群上使用并行算法处理大规模数据集。MapReduce有两个阶段执行:Map(映射) 阶段,Reduce(化简) 阶段。Ma

15、p阶段,先将输入的数据划分成若干个独立的数据块,由Map任务并行将这些数据块分配到集群中的多个节点,形成Map 阶段。Reduce(化简) 阶段,将Map的输出进行分布式并行计算,把计算结果合并到Reduce任务,从而得到最终计算结果。MapReduce两阶段两阶段YARN(分布式操作系统)(分布式操作系统)YARN旨在提供更高效和灵活的工作负载调度以及资源管理功能,其基本思想是将资源管理和作业调度/监控的功能分解成单独的守护进程。Yarn框架有一个全局的资源管理器(RM)和一定数量应用程序的ApplicationMaster(AM)。YARN工作原理工作原理HiveHive是一个数据仓库基础

16、架构工具,用于处理Hadoop中的结构化数据。它位于Hadoop的顶部,用于概述大数据,并使查询和分析变得简单。HBase(分布式数据库)(分布式数据库)HBase是一个建立在Hadoop文件系统之上的分布式列式数据库。HBase位于Hadoop文件系统之上,提供读写访问能力。ZooKeeperZooKeeper是面向分布式应用程序的分布式开源协调服务。它允许分布式进程通过与标准文件系统组织相似的共享分层名称空间相互协调。SparkApache Spark是一个开源的集群计算框架。用于大规模数据处理的快速和通用引擎。Spark有助于实现迭代算法,循环访问数据集多次,实现交互式/探索性数据分析,即进行重复的数据库式数据查询。Pig(用于开发(用于开发MapReduce操作脚本的过程语言平台)操作脚本的过程语言平台)Pig执行环境有两种模式:本地模式。所有脚本都在一台机器上运行Hadoop模式。也称为MapReduce模式,所有脚本都在Hadoop集群上运行。Sqoop(SQL-to-Hadoop)主要是用于在HDFS和RDBMS之间导入和导出数据,能够从非Hadoop数据存储中提取数据,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > IT计算机 > Web服务

copyright@ 2008-2023 yzwku网站版权所有

经营许可证编号:宁ICP备2022001189号-2

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!