《大数据安全方案.pptx》由会员分享,可在线阅读,更多相关《大数据安全方案.pptx(58页珍藏版)》请在优知文库上搜索。
1、大数据安全方案目录24、应用举例应用举例2、大数据应用介绍、大数据应用介绍1、大数据基本概念、大数据基本概念3、大数据安全现状、大数据安全现状大数据基本概念大数据基本概念大数据基本概念47:00,你被手机闹钟叫醒。昨晚你带着一款小型可穿戴设备睡觉的。这个设备连接着你手机里的一款大数据的大数据的APPAPP,你打开它就可以看到你昨晚睡觉时翻身次数、心跳和血压状况。根据测量结果,它建议你今天出门之前多喝点橙汁类的饮品来补充维生素。9:00,今天你要带朋友到上海的南京路步行街逛逛,你打开某互联网公司的大数据产品“XXXX预测预测”,看看步行街今天预计会有多少人,再看看上海今天的交通预测。 “XX预测
2、” 根据以往用户定位请求信息建议你乘地铁前往步行街。12:00,逛了一圈,你和朋友都累了,想找个地方吃饭。你打开大数据软件大数据软件,寻找附近的餐馆。通过该软件,你可以提前看到餐馆的视频环境,看看是否人多。大数据还可以把你脸的部分打成马赛克,你不用担心个人信息泄露。大数据基本概念514:00,吃过午饭,你想去附近的公园玩玩,但你不知道应该去世纪公园还是去中山公园。你又打开“XXXX预测预测”,希望它帮你分析一下,哪个公园相对不太拥挤。根据结果,你去了中山公园。16:00,你正在公园里休息,收到了催缴电话费的短信。你很好奇自己过去三年每个月的消费记录。但过去运营商只能让你查到六个月以内的消费信息
3、。因为中国电信至少有5亿用户,每天至少能产生10次计费记录。每天50亿的计费记录,一年下来就是1800亿条记录。这是一个大数据的大数据的存储和归纳技术存储和归纳技术难题。但在大数据时代,过去几年的电话通讯信息都可以查到了。 22:00,晚上睡觉的时候,你家的孩子哭闹起来。你把孩子的哭声录入一个大数据软件中。软件能告诉你孩子为什么哭。是饿了,还是哪里不舒服,还是说只是想撒撒娇18:00,你回到了家,你的可穿戴设备告诉你,今天你在室内和室外的时间分别都是多少,你一天内吸入了多少雾霾。大数据基本概念6数据不再是社会生产的“副产物”,而是可被二次乃至多次加工的原料,从中可以探索更大价值,它变成了生产资
4、料。Twitter上发布98000+新微博13000+个iPhone应用下载Skype上37万+分钟的语音通话上传6600张新照片到flickr发出1.68亿+条EmailYouTube上上传600+新视频淘宝光棍节10680+个新订单Facebook上更新69.5万+条新状态12306出票1840+张大数据基本概念7“大数据:或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。” 维基百科大数据基本概念8仅仅是“大”?比“大大”更重要的是数据的复杂数据的复杂性性,有时甚至大数据中的小数据如一条微博就具有颠
5、覆性的价值大数据基本概念9海量异构劣质高维大数据基本概念10体量Volume多样性Variety价值密度Value速度Velocity非结构化数据的超大规模和增长总数据量的8090%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍大数据的异构和多样性很多不同形式(文本、图像、视频、机器数据)无模式或者模式不明显不连贯的语法或句义大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效大杂低快大数据基本概念海量沙漠充满杂质只为粒金争分夺秒大杂低快11大数据基本概念大数据
6、的数据够“大”,数据不再是稀缺资源,不能像小数据时代那样,用最小的数据获得最多的信息;而应该要拿到与领域相关的全数据大数据的数据够“杂”,来源广泛,格式五花八门,用户需从海量数据中提炼有价值信息,个体数据(或严格因果模型)的精确性不再重要,重要的是大多数数据群共同指出的结论(相关性关系);大数据的数据够“快”,数据产生得快,数据增加得快,数据随时间的折旧也快,数据的时效性成为关键。大数据新思维12大数据基本概念对比对比传统方法传统方法大数据方法大数据方法数据采集手段数据采集手段采样数据 全局数据数据源数据源单数据源多数据源整合判断方法判断方法基于主观因果假设机械穷举相关关系演绎方法演绎方法孤立
7、的推算方法大数据+小算法+上下文+知识积累分析方法分析方法描述性分析预测性和处方性分析对产出的预期对产出的预期绝对的精确性更重要更注重实时性(具体根据需求而定)13大数据基本概念14大数据不仅仅是技术,关键是产生价值大数据不仅仅是技术,关键是产生价值可以从各个层面进行优化,更要考虑整体大数据价值15行业行业数据处理方式数据处理方式价值价值银行/金融贷款、保险、发卡等多业务线数据集成分析、市场评估新产品风险评估股票等投资组合趋势分析增加市场份额提升客户忠诚度提高整体收入降低金融风险医疗共享电子病历及医疗记录,帮助快速诊断穿戴式设备远程医疗改善诊疗质量加快诊疗速度制造/高科技产品故障、失效综合分析
8、专利记录检索智能设备全球定位,位置服务优化产品设计、制造降低保修成本加快问题解决能源勘探、钻井等传感器阵列数据集中分析降低工程事故风险优化勘探过程互联网/Web2.0在线广告投放商品评分、排名社交网络自动匹配搜索结果优化提升网络用户忠诚度改善社交网络体验向目标用户提供有针对性的商品与服务政府/公用事业智能城市信息网络集成天气、地理、水电煤等公共数据收集、研究公共安全信息集中处理、智能分析更好地对外提供公共服务舆情分析准确预判安全威胁媒体/娱乐收视率统计、热点信息统计、分析创造更多联合、交叉销售商机准确评估广告效用零售基于用户位置信息的精确促销社交网络购买行为分析促进客户购买热情顺应客户购买行为
9、习惯13大数据应用要解决的问题16大大体量大体量大非结构化数据的超大规模和增长杂杂多样性多样性数据多形态:音频、视频、文本、图片、文件等低低价值密度大量不相关信息快快追求时效性追求时效性时效性要求高,长的时效性一般T+n(离线),实时计算的化,则要求秒级价值价值ROI(投资回报率)(投资回报率)传统技术手段的ROI已经达到无法接收水平大数据应用要解决的问题17大数据技术被设计用于在成本可承受的条件下,通过非常快速(velocity)地采集、发现和分析,从大量(volumes)、多类别(variety)的数据中提取价值(value),将是IT 领域新一代的技术与架构。企业用以分析的数据越全面,分
10、析的结果就越接近于真实。大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将其与已知业务的各个细节相融合。大数据产品大数据管理大数据终端使用RDBMSAnalytical DBNoSQL DBERP/CRMSaaSSocial MediaWeb AnalyticsLog FilesRFIDCall Data RecordsSensorsMachine-Generated存储处理过滤挖掘分析搜索扩充软件是大数据的引擎18 和数据中心(Data Center) 一样,软件是大数据的驱动力. 软件改变世界软件改变世界!大数据涉及的关键技术19需求需求海量数据存储技术实时数据处理技术数据高速传
11、输技术搜索技术数据分析技术技术技术Hadoop,x86/MPPMap ReduceStreaming DataInfini BandEnterpriseSearch描述描述分布式文件系统流计算引擎服务器/存储间高速通信文本检索、智能搜索、实时搜索Text Analytics Engine 自然语言处理、文本情感分析、Visual Data Modeling 机器学习、聚类关联、数据模 型大数据涉及的关键技术20大数据(大数据(HadoopHadoop)NoSQLNoSQL 数据库数据库 数据仓库数据仓库部署架构部署架构水平扩展水平扩展大部分垂直扩展,少数水平扩展大部分水平扩展数据类型数据类型文
12、件存储,没有数据类型 简单数据类型丰富的数据类型丰富的数据类型数据模型数据模型非常简陋的数据模型简单灵活数据模型丰富的数据模型完善丰富的数据模型数据关系数据关系没有数据关系描述非常简单的数据关系描述数据关系完善数据关系完善数据一致数据一致无一致性弱一致性强一致性强一致性数据安全数据安全安全性很弱安全性很弱安全性很高安全性很高计算类型计算类型离线批量处理,只读,低并发实时CRUD操作,海量并发实时CRUD操作,高并发离线批量处理,只读,低并发适用场景适用场景低密度数据海量存储,数据预处理,预计算高并发实时在线交易,查询,报表高价值数据统一存储和计算平台常见用例常见用例日志处理,用户行为分析,搜索
13、引擎用户资料,微博,金融反欺诈金融账户,电信计费,税务等企业数据仓库11大数据使用的关键技术数据采集21数据采集数据储存与管理数据分析与挖掘计算结果展示ETL用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程大数据使用的关键技术数据采集22Splunk ForwarderScribeChukwaLogstashFluentdFlume采集采集Fluentd是另一个开源的数据收集框架。Fluentd使用C/Ruby开发,使用JSON文件来统一日志数据。它的可插拔架构,支持各种不同种类和格式的数据源和数据输出。FluentdLogstash
14、用JRuby开发,所有运行时依赖JVM。支持丰富的输入、过滤和输出.LogstashChukwa基于Hadoop的HDFS和Map Reduce来构建,提供扩展性和可靠性。Chukwa同时提供对数据的展示,分析和监视。ChukwaFlume 是Apache旗下的一款开源、高可靠、高扩展、容易管理、支持客户扩展的数据采集系统。 Flume使用JRuby来构建,所以依赖Java运行环境。.Flume在商业化的大数据平台产品中,Splunk提供完整的数据采集,数据存储,数据分析和处理,以及数据展现的能力。.Splunk Forwarder Scribe是Facebook开发的数据(日志)收集系统.S
15、cribe大数据使用的关键技术数据存储与管理23数据采集数据储存与管理数据分析与挖掘计算结果展示ETL用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程结构化、非结构化和半结构化数据分布式文件系统关系数据库非关系数据库(NoSQL)数据仓库云计算和云存储实时流处理大数据使用的关键技术分布式文件系统24分布式文件系统(Distributed File System)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。大数据使用的关键技术分布式文件系统25Google公司为了满足本公司需求而开发的基于Li
16、nux的专有分布式文件系统。尽管Google公布了该系统的一些技术细节,但Google并没有将该系统的软件部分作为开源软件发布。GFS(Google File System)Hadoop 实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFSHDFSLustre是一个大规模的、安全可靠的,具备高可用性的集群文件系统,它是由SUN公司开发和维护的LustreMogileFS是一套高效的文件自动备份组件,由Six Apart开发,广泛应用在包括LiveJournal等web2.0站点上.MogileFS相对比较轻量级,对master服务器有单点依赖,用perl编写,性能相对较差.mooseFS一个开源的轻量级分布式文件系统,它对文件进行管理,功能包括:文件存储、文件同步、文件访问(文件上传、文件下载)等,解决了大容量存储和负载均衡的问题。FastDFSTFS(Taobao !FileSystem)是一个高可扩展、高可用、高性能、面向互联网服务的分布式文件系统.TFSMongoDB是一种知名的NoSql数据库,GridFS是MongoDB的一个