《大数据与云计算黄哲学.pptx》由会员分享,可在线阅读,更多相关《大数据与云计算黄哲学.pptx(64页珍藏版)》请在优知文库上搜索。
1、1大数据与云计算:-信息技术发展的新纪元2大纲大数据与云大数据与云计算计算云计算云计算大数据平台与技术创新大数据平台与技术创新大数据平台大数据平台产业化与应用案例产业化与应用案例3什么是大数据对数据的使用者来讲,如果数据集超出了使用者所拥有的信息处理和分析的能力,就给使用者带来了大数据问题4大数据V特征Volume数据规模大Velocity数据变化数据快Variety数据属性复杂Value 价值大数据的特点并不只是数据规模大5数据的量呈现指数增长 2009年至2020年将增加44倍 数据的体量从0.8 zettabytes增加到35ZB生成和采集的数据将按指数增长根据麦肯锡预计美国超过1000
2、雇员的公司,平均每个公司存有200TB的数据,很多行业的公司,如银行、电讯、互联网、政府部门等,平均存储的数据超过1个PB。6大数据的多样性Variety 不同的数据格式,数据类型和数据结构 文本、数字、图像、音频、视频、时间序列、社会媒体数据、高维矩阵数据等 静态数据 vs. 流数据 同一个应用可以生成和采集不同类型的数据为了提取知识 尽可能多地综合不同类型的相关数据7大数据的速度Velocity 数据的采集速度的加快导致处理时间都需要有相应的提高 在线数据分析 (Online Data Analytics) 决策的延误 商机的消失 实例 网上营销(E-Promotions): 基于用户当前
3、的位置和过往的交易数据预测用户的喜好 在合适的时间和地点发送用户感兴趣的产品和店铺 健康监控(Healthcare monitoring): 利用穿戴式的传感器监控用户的生理和活动数据 及时提供需要的医疗服务8大数据的价值 (Value)未来大数据的产业规模将会至少以万亿美元来进行衡量,大数据将会给信息技术领域带来一个新的增长点。美国医疗保健美国医疗保健n每年产值达3000亿美金n每年生产率增长约0.7%制造业制造业n 最多可节省50%的产品研发、组装成本n 最多可节约7%的营运资金美国零售业美国零售业n净利率增长可能高达60%+n每年生产率增长0.5-1.0%欧洲公共部门欧洲公共部门管理管理
4、n每年2500亿欧元n每年生产率增长约0.7%全球个人定位全球个人定位数据数据n1000亿+的服务供应商收入n为终端用户带来高达7000亿美的价值9大数据的产生 数据的发展和创新将不再是如何生成和采集数据 具备对采集的数据进行管理、分析、总结、可视化展示和知识发现的能力已经成为新的挑战社会媒体网络(每个人都在产生数据)科学仪器 (采集不同类型的数据)移动终端 (个人地理信息数据)传感器网络(测量不同类型的数据) 10大数据的技术挑战 存储 分布式、低成本 传输 能力、成本 处理 集成、融合、处理 分析 能力、效率 挖掘 方法、能力、技术、平台 应用 能耗11互联网与电讯行业需求某互联网公司 1
5、00多在线游戏,4亿在线游戏用户 在线系统记录每个游戏用户在线玩游戏的详细数据,包括游戏、时间、动作、结果等,TB级数据 分析需求: 用户行分类与预测,用户行为客户群划分 用户挽留、用户奖励和级别提升某电信公司 深度包检测(DPI)大数据分析,研究客户互联网行为模型,流量分析,数据套餐设计 百万人口城市,每天数据量TB级12云计算云计算是一种新的大规模分布式计算模式 通过网络和资源 虚拟技术,实现计算及存储资源集中管理,面向用户提供服务云计算可以解决目前计算机使用的诸多问题,是计算技术发展的一个新的里程碑 2023-4-2612传统计算机的问题传统计算机的问题 使用成本高资源分散资源不足资源浪
6、费高能耗环境污染云计算的优点云计算的优点 成本低易于普及可扩展能力高节能环保13 云计算的五个基本特征1. 按需自助服务 (On-demand self-service)2. 广泛的网络接入 (Broad network access)3. 资源池 (Resource pooling)4. 快速弹性化 (Rapid elasticity )5. 可度量的服务 (Measured Service)2023-4-261314云环境 (A Cloud) 云指的是一个遥远的计算环境,这个环境是用来为计算环境外的用户提供可扩展和可度量的计算资源。 用户可能不知道具体的云环境在哪里。如用户在深圳,云环境可
7、能在内蒙古。2023-4-261415云环境的计算资源 物理服务器CPU, 内存, 外存(磁盘、磁带) 虚拟服务器CPU, 内存, 外存 软件 服务 (应用)2023-4-2615物理服务器虚拟服务器软件服务16虚拟化是云计算的核心技术 虚拟化技术可以将一个物理服务器当作多个虚拟服务器使用,多个用户共享物理服务器的资源,但用户对虚拟服务器的体验是独立的计算机。用户不需要了解物理服务器 虚拟服务器的运行由物理服务器统一管理和维护,虚拟机用户不需要维护。 当某虚拟机用户需求变化时,物理服务器的资源可以自动扩展。2023-4-261617弹性化和可扩展性 弹性化是云计算的重要特征,计算资源弹性化可以
8、使云环境的计算能力随着用户需求变化而增加或减少。 水平扩展 向外扩展 Scale out增加资源 向内收缩 Scale in减少资源 垂直扩展 向上扩展 Scale up提升CPU和内存 向下收缩 Scale down 降低CPU和内存2023-4-2617云服务器18面向服务 Service Orientation云计算的独特特征是服务导向或面向服务,就是将计算和存储资源作为服务供用户使用服务的收费方式是谁使用谁付钱,例如:付使用存储服务的费用付使用CPU的费用付使用数据库软件的费用用户不拥有这些资源,因此不需维护它们2023-4-261819云计算的三种基本服务模式云设施服务 Cloud
9、Infrastructure as a Service (IaaS)云平台服务 Cloud Platform as a Service (PaaS)软件作为服务 Cloud Software as a Service (SaaS)2023-4-261920云计算架构 Cloud Architecture2023-4-2620虚拟化计算服务Computing Service存储服务Storage ServiceDBMSMapReduceGoogle App EngineCRMERPCAD/CAM POSWindows Azure Infrastructure as aService (IaaS)
10、Platform as aService (PaaS)Software as aService (SaaS)物理资源物理资源21云服务应用的部署模型公有云 Public cloud私有云 Private cloud社区云 Community cloud混合云 Hybrid cloud 2023-4-262122大纲大数据与云大数据与云计算计算云计算云计算大数据平台与技术创新大数据平台与技术创新大数据平台大数据平台产业化与应用案例产业化与应用案例23挑战性的技术问题Access to Diverse Heterogeneous Distributed DataExpression Arrays
11、(various tissues)Personal genomicsX-rays, MRI, mamograms, etcClinical RecordAnalysis lab notesHospital events .admission, surgery, recovery, discharge 1.Patient Information数据融合(fusion)数据集成(integration)挑战病人健康医疗数据没有有效的数据集成就不能进行有效的综合数据分析24挑战性的科学问题成千上万个属性超高维问题百万以上甚至超亿个记录1. 混合数据类型2. 缺省值/噪声3. 相关性问题4. Unba
12、lance5. Subspace property 6. Uninformativeness12nn-1n-2n-3n-4f1f2f3f4f5大数据集的挑战 (Big Data Matrix) 25超高维数据聚类算法研究1. 对属性变量做分组归并,产生组变量2. 对组变量和属性变量分层加权重3. 扩展软子空间聚类算法EWKM,在聚类过程中自动计算组变量权重值和属性变量权重值4. 最后得到以组变量为主的子空间聚类结果组变量相当于在高空看数据,大轮廓清晰属性变量相当于在低空看数据,细节清晰组变量属性变量26SRF:基于MapReduce大数据随机森林算法Layer宽度优先、大规模分层建树策略宽度优
13、先、大规模分层建树策略27大数据随机森林算法研究成果属性加权抽样随机森林算法,用于超高维数据分类,平均精度提高20%。与澳大利亚联邦税务总局数据挖掘首席科学家Graham Williams合作,将随机森林算法用于ATO缴税分类建模。分布式高可扩展随机森林分类算法,实现了对千万个客户记录、千个变量、100GB规模数据的建模能力。将分布式随机森林算法发布到国际著名的统计分析平台 R 系统上,扩大国际影响力。研究成果国际化推广研究成果国际化应用随机森林模型并行化实现属性加权抽样随机森林模型28云计算与大数据分析数据挖掘是从数据中发现知识的方法和过程,是解决各种科学和应用问题的重要手段由于数据的快速增
14、长,传统的数据挖掘技术和软件正面临极大的瓶颈 银行:人民银行征信系统收录了自然人6.4亿人的信贷记录 金融:南方基金公司有近1000万客户资料需要分析 电讯:广东中国移动每天产生2TB通话记录数据 零售:Wal-Mart每天产生2.6亿个交易记录,其数据中心存储4PB的交易数据 互联网: Amazon有5900万活跃客户,超过42TB的客户数据2023-4-2628云计算的优点是处理海量数据的能力,为大数据挖掘提供了新的计算平台 29云计算海量数据处理的核心技术2023-4-2629 数据划分数据划分GFS (Google) GFS (Google) HDFS (Hadoop)HDFS (Ha
15、doop) 算法编程算法编程Map Map 和和 Reduce Reduce 两两个基本操作个基本操作大规模分布计算大规模分布计算可扩展性可扩展性 程序运行程序运行负载平衡负载平衡任务调度任务调度容错容错30MapReduce编程模型主节点主节点节点节点节点节点节点节点节点节点节点节点用户编程用户编程 文件文件文件文件文件文件文件文件文件文件输出输出输出输出文件划文件划分分Map Map 运算运算Reduce Reduce 运算运算结果输出结果输出程序写成程序写成MapMap和和ReduceReduce两步运算两步运算1. 1. MapMap统计单个文本词频统计单个文本词频2. 2. Redu
16、ceReduce综合所有文本的词频综合所有文本的词频(Map)(Reduce)31MapReduce 管道式运算2023-4-2631M RM RM RM RK-K-均值聚类均值聚类对象分簇对象分簇MapMapReduceReduceM RM RM RM RM RM RM RM R输出输出输入输入? ? ? ? ? ?收敛收敛? ?重新计算重新计算簇簇中心点中心点32基于云计算的大数据分析平台区域智能数据中心区域智能数据中心支持多种终端访问n 以区域性智能数据中心及高速互联网为基础设施n 以互联网服务体系为架构n 以大数据存储、处理、挖掘和交互式可视化分析等关键技术为支撑n 通过多样化移动智能终端及移动互联网为用户提供数据存储、管理及分析服务。33关键技术云计算引擎高性能海量数据挖掘算法库工作流引擎支撑海量数据处理、挖掘与分析运算提供海量复杂数据处理、分析与挖掘高可扩展算法数据处理分析流程图形化设计数据处理分析流程自动执行资源调度及优化Open API提供数据挖掘平台与第三方应用系统的扩展接口支撑海量数据存储与管理云存储大数据分析平台大数据分析平台34云计算大数据挖掘平台云计算大数据挖