《大数据及技术介绍.pptx》由会员分享,可在线阅读,更多相关《大数据及技术介绍.pptx(16页珍藏版)》请在优知文库上搜索。
1、大数据大数据大大数据的概念介绍数据的概念介绍Page 2大数据大数据(Big Data),或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。非结构化数据的超大规模和增长总数据量的8090%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍大数据的异构和多样性很多不同形式(文本、图像、视频、机器数据)无模式或者模式不明显不连贯的语法或句义实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能Vs传统商务智
2、能(咨询、报告等)大数据的大数据的构成构成Page 3大数据 = 海量数据 + 复杂类型的数据v海量交易数据:企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。大数据包括:交易数据和交互数据集在内的所有数据集v海量交互数据:源于Facebook、Twitter、LinkedIn及其他来源的社交媒体数据构成。它包括了呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输Manage File Transfer协议传送的海量图像文件、Web文本和点击流数据、科学信息、
3、电子邮件等等。可以告诉我们未来会发生什么。v海量数据处理:大数据的涌现已经催生出了设计用于数据密集型处理的架构。例如具有开放源码、在商品硬件群中运行的Apache Hadoop。大大数据引起的变革数据引起的变革Page 4大思维变革商业变革管理变革“更多”不是随机样本,而是全体数据“更杂”不是精确性,而是混杂性“更好”不是因果关系,而是相关关系“数据化”一切皆可“量化”“价值”“取之不尽,用之不竭”的数据创新“角色定位”数据、技术与思维的三足鼎立“风险”让数据主宰一切的隐忧“掌控”责任与自由并举的信息管理大数据的相关技术大数据的相关技术Page 5数据的采集数据的采集数据存储与管理数据存储与管
4、理数据分析与挖掘数据分析与挖掘结果展示结果展示ETL数据众包(CrowdCouring)结构化、非结构化和半结构化数据分布式文件系统分布式文件系统HDFS关系数据库非关系数据库(NoSQL)数据仓库(DWH)云计算和云存储实时流处理A/B测试关联规则分析分类聚类聚类遗传算法神经网络预测模型模式识别时间系列分析时间系列分析回归分析系统仿真机器学习机器学习优化空间分析社会网络分析自然语言分析MapReduceR语言标签云(Tag Cloud)聚类图(Clustergram)空间信息流(Spatial Information Flow)热图(Heatmap)大数据主要应用技术大数据主要应用技术Had
5、oopHadoopPage 6 据IDC的预测,全球大数据市场2015年将达170亿美元规模,市场发展前景很大。而Hadoop作为新一代的架构和技术,因为有利于并行分布处理 “大数据”而备受重视。 Apache Hadoop 是一个用java语言实现的软件框架,在由大量计算机组成的集群中运行海量数据的分布式计算,它可以让应用程序支持上千个节点和PB级别的数据。 Hadoop是项目的总称,主要是由分布式存储(HDFS)、分布式计算(MapReduce)等组成 。 优点:l可扩展:不论是存储的可扩展还是计算的可扩展都是Hadoop的设计根本。l经济:框架可以运行在任何普通的PC上。l可靠:分布式文
6、件系统的备份恢复机制以及MapReduce的任务监控保证了分布式处理的可靠性。l高效:分布式文件系统的高效数据交互实现以及MapReduce结合Local Data处理的模式,为高效处理海量的信息作了基础准备。HadoopHadoop包括以下模块包括以下模块: :Hadoop Common: 支持其他Hadoop模块的公用工具,包括 FileSystem(面向通用文件系统的抽象基类)、远程程序调用(RPC)和序列化库.Hadoop 分布文件系统分布文件系统(HDFS): 一个为访问应用数据提供高吞吐量的分布式文件系统。Hadoop YARN: 一个工作调度与集群资源管理的框架Hadoop Ma
7、pReduce: 一个基于YARN大数据集并行处理系统.HadoopHadoop成大数据成大数据的事实标准的事实标准 HDFSZooKeeperpAmbari是基于Web的对Hadoop集群进行管理的工具pAvro是一个数据序列化系统pMahout是一个可扩展的机器学习与数据挖掘库. pPig是一个基于Hadoop的大规模数据分析平台,Pig为复杂的海量数据并行计算提供了一个简易的操作和编程接口pChukwa是基于Hadoop的集群监控系统,由yahoo贡献phive是基于Hadoop的一个工具,提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行pZooKeeper
8、:高效的,可扩展的协调系统,存储和协调关键共享状态pHBase是一个开源的,基于列存储模型的分布式数据库pHDFS是一个分布式文件系统。有着高容错性的特点,并且设计用来部署在低廉的硬件上,适合那些有着超大数据集的应用程序pMapReduce/YARN是一种编程模型,用于大规模数据集(大于1TB)的并行运算pCassandra是一种可扩展的多主数据库,无单点故障 YARN HBaseChuKwaPigHiveAvroMahoutCassandraAmbariHadoopHadoop体系体系架构架构HDFSHDFS分布式文件系统分布式文件系统Page 8NameNode可以看作是分布式文件系统中的
9、管理者,存储文件系统的meta-data,主要负责管理文件系统的命名空间,集群配置信息,存储块的复制。DataNode是文件存储的基本单元。它存储文件块在本地文件系统中,保存了文件块的meta-data,同时周期性的发送所有存在的文件块的报告给NameNode。 Client就是需要获取分布式文件系统文件的应用程序。 HDFS是一个高度容错性的分布式文件系统,能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFSHDFS具体操作具体操作Page 9文件写入:1. Client向NameNode发起文件写入的请求2. NameNode根据文件大小和文件块配置情况,返回给Client它所
10、管理部分DataNode的信息。3. Client将文件划分为多个文件块,根据DataNode的地址信息,按顺序写入到每一个DataNode块中。文件读取:1. Client向NameNode发起文件读取的请求2. NameNode返回文件存储的DataNode的信息。3. Client读取文件信息。MapReduceMapReduce映射、化简编程模型映射、化简编程模型Page 101. 根据输入数据的大小和参数的设置把数据分成splits, 每个split对于一个map线程。2. Split中的数据作为Map的输入, Map的输出一定在Map端。3. Map的输出到Reduce的输入的过程
11、(shuffle过程): 第一阶段:在map端完成内存-排序-写入磁盘-复制 第二阶段:在reduce端完成映射到reduce端分区-合并-排序4. Reduce的输入到Reduce的输出 最后排好序的key/value作为Reduce的输入,输出不一定是在reduce端。MapReduce是一种编程模型,用于大规模数据集的并行运算。Map(映射)和Reduce(化简),采用分而治之思想,先把任务分发到集群多个节点上,并行计算,然后再把计算结果合并,从而得到最终计算结果。多节点计算,所涉及的任务调度、负载均衡、容错处理等,都由MapReduce框架完成,不需要编程人员关心这些内容。 HBASE
12、HBASE分布式数据存储分布式数据存储Page 11HBase Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统;HBase位于结构化存储层,HDFS为HBase提供了高可靠性的底层存储支持,MapReduce为HBase提供了高性能的计算能力,Zookeeper为HBase提供了稳定服务和failover机制;Pig和Hive还为HBase提供了高层语言支持,使得在HBase上进行数据统计处理变的简单。业界主要业界主要厂商厂商的大数据架构的大数据架构Page 12业界主要厂商的大数据架构业界主要厂商的大数据架构Page 13NECNEC的大数据体系的大数
13、据体系Page 14大数据探索项目人力开销分析体系大数据分析验证环境NEC大数据支持系统分析处理最优化技术公开数据活用支持从解决方案、平台架构,到支持系统,NEC拥有大数据分析所需要的全部要素运营高级化/最优化工厂故障预兆监视信息管理的强化非法活动检测提高产品价值改善服务品质顾客获取、维持促进销售强化信息管控需求预测型自动订货人材匹配平台多样性:M2M基盘(CONNEXIVE)高速性:InfoFrameDWHApplianceHadoop高速化拡張性:InfoFrameRelationalStore、iiStorage安全性:加密技术加密计算RAPID机器学习不变性分析异构混合学习文本语义识别
14、分析技术SDN产品(UNIVERGE PF系列等)NECCloudIaaSSAS等ISV产品大数据教育项目NEC大数据解决方案分析验证作业标准NECNEC从从数据中发掘法则及规律性的分析技术数据中发掘法则及规律性的分析技术Page 15先进的分析法则及规律性模式从大量的数据中自动发现完全不同的模式或规则世界首创判断两段文章是否具有相同的含义文本含义识别异构混合学习自动发现数据的相关性,自动发现与平时不一样的状况不变性分析基于深度学习技术,面向非结构化数据,实现高速,高精度,低内存消耗的学习RAPID快速学习世界No.1世界首创世界No.1能够从各种各样而且大量的数据中抽取出知识的世界领先水平的NEC数据分析工具群 美国国立标准技术研究所(NIST:National Institute of Standards and Technology)主持评比结果大数据分析平台大数据分析平台Page 16