《大数据技术及应用——基于Python语言 思考题参考答案 严宣辉 第1--4章 初识大数据---大数据存储.docx》由会员分享,可在线阅读,更多相关《大数据技术及应用——基于Python语言 思考题参考答案 严宣辉 第1--4章 初识大数据---大数据存储.docx(13页珍藏版)》请在优知文库上搜索。
1、第一章初识大数据1 .什么是大数据?大数据的定义是什么?H前业界对大数据还没有一个统一的定义。常见的研究机构施于不同的角度给出如下定义。(1)大数据是指大小超出常规的数据库工具获取、存储、管理和分析能力的数据集(并不是说一定要超过特定TB级的数据桀才算大数据)。麦肯锡(2)大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集。维基百科(3)大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化力的海量、高增长率和多样化的信息资产。Gartner(4)数据量大、获取速度快或形态多样的数据,难以用传统关系里数据分析方法进行有效分析,或者需要大规模的水平扩屣才能高效
2、处理。一一美国国际标准技术研究院(NIST)(5)大数据般会涉及两种或两种以上的数据形式,它需要收集超过100TB(1TB-240B)的数据,并且是高速实时潦数据:或者从小数据开始,但数据每年增长速率至少为60%。一一国际数据公司(1)总的来说.大数据是指所涉及的数据规模巨大到无法通过人工或计算机,在可容忍的时间下使用常规软件工具完成存储、管理和处理任务,并解择成人们所能解读的形式的信息。2 .大数据技术包括事几方面的内容?请简要回答.大数据技术可归纳为:大数据采集、大数据预处理、大数据存储、大数据计算:、大数据挖掘、大数据安全和大数据可视化。3 .请举一个大数据在生活中应用的例子,并简要回答
3、大数据技术是如何应用的。拥堵监测。通过分析数据,可以实时获得用户的连贯位置信息。通过对信息长时间的统计,分析常驻用户和人车合并条件,挖掘道路中真正运行的用户。经过道路匹配、用户匹配、车向判断,车速计算、交通信息提取、道路交通状态判断等步骤,判断道路是否拥堵。在这个例子中,大数据技术是这样应用的:(1)大数据采集:通过采集用户的连贯位置信息,获取道路上的交通状况数据。(2)大数据预处理:对采集到的数据进行清洗和去重,问时对数据进行格式化处理和规范化处理。(3)大数据存储:将预处理后的数据存储到大数据存储系统中,例如HadOop、CaSSandra等,以便进行后续处理和分析。(4)大数据计算:通过
4、大数据计算技术,例如MaPRedUce、SPark等,对存储在大数据存储系统中的数据进行处理和分析,例如道路I兀配、用户匹配、车向判断、车速计算、交通信息提取等操作。(5)大数据挖掘:利用大数据挖掘技术,例如数据聚类、关联规则挖掘等,对处理后的数据进行挖掘和分析,以提取有价值的交通信息。(6)大数据可视化:将挖掘出的交通信息进行可视化展示,例如通过地图显示交通拥堵情况等,以便用户和交通管理部门实时了解交通状况。(7)大数据安全:对采臾到的用户位置信息和交通信息进行加密和安全处理,以确保用户数据的隐私和安全。4 .试述大数据的基本特征。大数据具有巨量性(Vo1.ume).多样性(Variety)
5、、高速性(Ve1.ocity),准确性(VerUCiIy)、高价值和低价值密度(Va1.ue)的特征。具体的:(1)Vo1.ume(巨显性):数据量巨大。这是大数据的显著特征,数据集合的规模不断扩大,已从GB级到TB级再到PB级,甚至已经到了EB级和ZB级。(2) Variety(多样性):数据类型更杂多样。以往产生或者处理的数据类型较为单,大部分是结构化数据,如传统文本类和数据库数据.如今,数据类型不仅包括结构化数据,还包括大量半结构化或者非结构化数据,如XM1.,邮件、博客、即时消息。此外,企业需要整合分析来自豆杂的传统和非传统信息源的数据,包括企业内部和外部的数据。(3) Ve1.oci
6、ty(高速性):数据具有高速性。数据产生、处理和分析的速度持续提高,数据流量大.速度提高的原因是数据创建的实时性及需要将流数据结合到业务流程和决策过程中。(4) Veracity(准确性):数据具有准确性。该特征体现了大数据的数据质量。较为典型的应用是网络垃圾邮件,它们给社交网络带来了严重的困扰。据统计,网络垃圾占万维网所有内容的20%以上。(5) Va1.ue(高价值,低价值密度):数据具有潜在价值。大数据由于数据量不断增大,堆位数据的价值密度不断降低,而数据的整体价值不断提高。有人甚至将大数据等同于黄金和石油,表示大数据中蕴含了无限的商业价值。5 .大数据处理的数据类型有哪些?大数据处理的
7、数据类型包括结构化数据、半结构化数据和非结构化数据。这些类型的数据都可以被大数据技术处理。其中,结构化数据是指数据库,也称作行数据,是由二维表形式来逻辑表达和实现的数据“半结构化数据具有一定的结构性,且和具有严格理论模型的关系型数据库的数据相比更灵活。非结构化数据是与结构化数据相对的,它不适合用二维表形式表示,包括所有格式的办公文档、图片和音频、视频信息等。6 .商要回答大数据的出现为人们生活带来了哪些通要改变.大数据的出现为人们生活带来了许多重要改变.例如,大数据能够支持政务活动,如奥巴马竞选中的民意预测采用大数据存储和分析选民资料、筹集资金、投放广告等:然后,大数据可以提高社会服务能力,如
8、洛杉矶的智能交通ATSAC.采用感应器收集车速、流域等信息,进行实时处理。此外,大数据可以提高商业决策水平。例如,USXPreSS的物流运输使用大数据分析车辆状况,对车辆人员进行合理调度。总之,大数据的出现为人们生活带来了许多重要改变。它能够支持政务活动,提而社会服务能力,并提高商业决策水平这些只是大数据改变我们生活的几个例子。7 .大IM8、云计算和物联网三者之间有什么联系?又有哪些不同?大数据、云计算和物联网:者之间有着紧密的联系“物联网通过连接各种设备和传感器,产生了大量的数据。这些数据需要存储和分析,而云计兑提供了一个可扩展、弗性和经济高效的方式来存储和处理这些数据。大数据技术则用于分
9、析这些海量数据,从中提取有价值的信息。但它们也有着明显的不同:物联网(IoT)是指通过互联网连接的设备或对软的集合,它们通过互联网发送和收集数据,帮助设备做出决策并记住特定的模式和例程。物联网的目的是通过连接设备来提高效率、安全性和便利性。云计算是种计算模型,它允许用户通过网络访问共享的计算资源,如服务器、存储和应用程序。云计算提供r一个集中的系统来帮助传输数据和各种文件到数据中心,不同的数据和程序可以从集中的Z:系统轻松访问。大数据是指结构化和非结构化大量数据的分析过程,以获得对不同业务模式的洞察力。大数据指的是数据太庞大或第杂,无法使用通常方法处理。总之,物联网,云计算和大数据二.者之间有
10、着密切的联系,但它们也有着明显的不同。物联网是数据来源,大数据是数据分析平台,云计兜是存储、扩展和快速访问的位置。8 .对大数据未来的发展趋势,简要说说自己的看法。大数据技术的发展聘继续推动各行各业的数字化转型。随着人工智能、云计算、物联网和区块链等技术的不断发展,大数据将在这些领域发挥更大的作用。同时,随着数据量的不断增长,数据治理也将成为重要的议题。此外,大数据人才的培养和引进也将成为关键因素,以支持大数据行业的发展.第二章大数据采集1 .大数据与传统数据主要有些区别?大数据和传统数据的主要区别包括以下几个方面:(D数据规模:传统数据规模小,以MB,GB为单位;而大数据规模大,以TB、PB
11、为总位。(2)生成速度:大数据的生成速度远快于传统数据。(3)数据源:传统数据数据源集中,大数据数据源分散。(4)数据类型:传统数据通常是单一的结构化数据,而大数据则包结构化、半结构化、非结构化等多源异构数据。(5)数据存储:传统数据通常存储在关系型数据管理系统(RDBMS)中,而大数据存储在非关系型数据库(NoSQ1.),分布式存储系统(Hadoop分布式文件系统)中。(6)处理工具:传统数据只有一种或少数几种处理工具,而大数据不存在单一的全处理工具。2 .互联网的数据来源有IV些?主要特点是什么?(1)互联网数据主要源于各种网格和社交媒体的半结构化数据和非结构化数据,包括Web文本、单击流
12、数据、GPS和地理定位映射数据,通过管理文件传输协议传送的海量图像文件、评价数据、科学信息、电了邮件等。具体分为以下几个方面:网站和应用程序:互联网上的各种网站和应用程序都会产生大量的数据,如社交媒体、电子商务、搜索引擎等。传感器和设备:随着物联网的发展,越来越多的传感器和设备连接到互联网上,产生各种类型的数据,如气象数据、交通数据、智能家居数据等.开放数据:许多政府机构、科研机构和组织发布各种类型的开放数据,如人口普查数据、地理信息数据、科学研究数据等。用户生成内容:互联网上的用户生成内容包括文本、图像、视频、音频等,这些内容可以通过社交媒体,博客、论坛等进行分享和发布.(2)互联网数据的主
13、要特点包括以下几个方面:多样性:互联网数据来源多样化,包括结构化、半结构化和非结构化的数据,如文本、图像、音频、视频等。高速度:互联网数据增长速度非常快,需婴快速、实时地处理和分析1高容量:互联网数据量非常大,需要使用大规模的存储和处理技术来管理和分析。不确定性:互联网数据的来源和侦量不确定,需要进行数据清洗和预处理来提高数据质量.价值潜力:互联网数据包含大量有价值的信息和洞见,可以用于商业、科学、医疗等领域的决策和发展。3 .前述Kafka数据采集架构。Kafka是一个分布式消息系统,它具有高性能、持久化、多副本、横向扩展的特点。Kafka的主要功能是构建可苑的、用于传输实时数据的管道,以及
14、构建实时的流数据处理应用来变换或处理流数据.Kafka的基本架构由PrOdUCer、Broker和ConSUmer三层组成,其中Producer将消息发布到Kafka集群,Broker负责保存和管理消息,而Consumer订阅特定TOPiC的消息并处理它们。整个过程中,Topic作为消息分类的逻辑概念,使得Producer发送的消息可以被正确地分发和消费。4 .主题可以分很多区,这些区有什么作用?对于每个TOPic,Kafka集群都会维持一个分区(Partition)日志。Partition的主要作用包括:(1)扩展数据容量:当单个Topic的数据容量超出单个Broker的存储能力时,可以通过
15、分散到多个Partition上来扩展存储容量。(2)分布式处理:Partition可以将数据分散到多个Broker上进行处理,提高整个系统的并发处理能力。5 .在Kafka架构中,ZooKeeper如何实现敷据管理?ZooKeeper在Kafka集群中扮演着重要的角色,通过管理元数据和集群成员关系,确保了Kafka集群的高可用性、高性能和可伸缩性。(I)ZooKeeper将Kafka集群的元数据存储在其自己的数据节点中.例如,ZooKeeper将每个Broker的信息存储在一个特定的节点上,这个节点的路径由固定的前级和BrokerID组成。每个Topic的信息也存储在特定的节点上,节点路径由固
16、定的前缀和Topic名称组成。同样,每个Partition的信息也存储在一个特定的节点上,路径由固定的前缀、Topic名称和PartitionID组成。(2)当Producer或Consumer启动时,它们将向ZooKeeper发送请求,查询特定Topic的元数据,例如分区数、分区在哪些Broker上,以及每个分区的1.eader和Fo1.1.ower.这些元数据信息将由ZooKeeper返回,并缓存在Producer或Consumer的内存中。(3)当某个Broker加入或退出Kafka集群时,它将向ZooKeeper发送请求,将自己的信息注册或注销。ZooKeeper将相应的节点添加或删除,并通知集群中的其他Broker进行更新。