大数据存储技术mongodb在支撑系统数据分级存储中的实践.docx

上传人:王** 文档编号:786809 上传时间:2024-01-14 格式:DOCX 页数:8 大小:73.04KB
下载 相关 举报
大数据存储技术mongodb在支撑系统数据分级存储中的实践.docx_第1页
第1页 / 共8页
大数据存储技术mongodb在支撑系统数据分级存储中的实践.docx_第2页
第2页 / 共8页
大数据存储技术mongodb在支撑系统数据分级存储中的实践.docx_第3页
第3页 / 共8页
大数据存储技术mongodb在支撑系统数据分级存储中的实践.docx_第4页
第4页 / 共8页
大数据存储技术mongodb在支撑系统数据分级存储中的实践.docx_第5页
第5页 / 共8页
大数据存储技术mongodb在支撑系统数据分级存储中的实践.docx_第6页
第6页 / 共8页
大数据存储技术mongodb在支撑系统数据分级存储中的实践.docx_第7页
第7页 / 共8页
大数据存储技术mongodb在支撑系统数据分级存储中的实践.docx_第8页
第8页 / 共8页
亲,该文档总共8页,全部预览完了,如果喜欢就下载吧!
资源描述

《大数据存储技术mongodb在支撑系统数据分级存储中的实践.docx》由会员分享,可在线阅读,更多相关《大数据存储技术mongodb在支撑系统数据分级存储中的实践.docx(8页珍藏版)》请在优知文库上搜索。

1、成果上报申请书成果名称大数据存储技术mongodb在支撑系统数据分级存储中的实践成果申报单位中国移动通信集团北京成果承当部门/分公司信息系统部工程负责人姓名崔希宁工程负责人联系和Email13901287025cuixiningbmcc工程参与人姓名杨海威、王江、张雨晴、宋哲、常莎成果专业类别*业务支撑所属专业部门*业务支撑线条成果研究类别*现有业务优化省内评审结果*(按填写说明4)关键词索引(35个)大数据海量查询非结构型数据库数据生命周期管理应用投资万元(指别的省引入应用大致需要的投资金额)产品版权归属单位北京移动对企业现有标准标准的符合度:(按填写说明5)符合NGB0SS3.O标准如果该

2、成果来源于研发工程,请填写研发工程的年度、名称和类型(类型包括:集团重点研发工程、集团联合研发工程、省公司重点研发工程、其他研发工程),可填写多个:省公司重点工程NGCRM3.5专利情况:如果该成果产出相关专利,且专利处于国知局专利申请审查阶段或已授权,请说明专利名称、类型、申请号、状态、是否海外申请等情况。(按填写说明7)成果简介:简要描述成果目的和意义,解决的问题,取得的社会和经济效益。随着云技术的逐渐推广,基于云技术的大数据海量信息存储也应用得越来越广泛。本研究基于开源数据库技术,研究实施大数据的处理方法策略,并在数据信息生命周期管理中落地实施。在通常意义上,大数据(bigdata),或

3、称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内到达撷取、存储、管理、处理、并整理成为帮助企业经营决策更积极目的的信息或运营支撑。大的数据需要特殊的技术,以有效地在容忍时间内完成处理。适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘,分布式文件系统,分布式数据库,云计算平台,和可扩展的存储系统。核心是数据分片存储,分布移动计算。在北京移动数据分级存储ILM系统三期建设中,我们在非结构化数据库技术NoSQL的应用方面进行了相关的探索和尝试,并成功运用到统一历史数据归档查询中心平台建设中,为数据中心数据分级存储系统(生命周期)的数据存储及分析查询开辟

4、了一种新的方式。解决数据处理对传统oracle数据库技术的依赖,极大降低企业本钱提高企业的创新能力。省内试运行效果:描述成果引入后在本省试运行方案、取得的效果、推广价值和建议等。随着北京移动数据分级存储系统三期,即ILM三期系统的上线,统一历史数据归档查询中心中的数据已经涵盖老的BoSS3、SiebelCRM以及新的NGCRM、NGBOSS、营销管理平台等系统的历史数据。其中既包含基于常见的关系数据库Oracle数据的直接归档的数据,还包含基于非结构化数据存储的非结构化数据,以及通过转换后的软件和存储本钱更低的半结构化数据。在采用MOngoDB数据库后,统一归档查询中心对于基于文本的非结构化以

5、及半结构化归档历史数据的查询性能得到大幅提升。尝试解决了不适合在Bl也不适合在CRM构架下处理的数据关联分析的需求。应对不断增加的大数据即时分析业务问题。同时,本结构支持云平台技术,能够到达开源节流提高企业在移动互联环境核心竞争力。新的系统完全在刀片环境,开源环境实现,极大降低软硬件建设维护本钱。文章主体(3000字以上,可附在表格后):根据成果研究类别,主体内容的要求有差异,具体要求见表格后的“填写说明6”。1 .业务支撑分级存储系统数据生命周期系统出现的问题随着公司在业务运营过程中产生的数据步入PB级,电信运营企业“大数据时代渐渐来临。一方面随着业务产生的历史数据的爆炸性增长,对于历史海量

6、数据的管理和检索带来了巨大挑战;另一方面,在企业活动产生的数据中20%的是结构化的,而80%那么是非结构化或半结构化的,原有关系型数据库也面临诸多瓶颈。与业务信息系统中大量用于交易记录和统计分析等的结构化数据相比,非结构化数据具有某种特定和持续的价值,这种价值在共享、查询、分析等使用过程中得以产生和放大,并最终对企业业务和战略产生影响。在管理方式上,相对于存储在关系型数据库里,用二维逻辑表来表现的结构化数据而言,那些不方便用数据库二维逻辑表来表现的数据就是所谓的非结构化数据,包括报表、账单、影像、办公文档、扫描文件、Web页面、电子邮件以及多媒体音频和视频信息等。因此在管理这些非结构化数据时,

7、原来主要用于管理结构化数据的关系数据库的局限性暴露地越来越明显,面对这些种挑战,大数据处理技术、非结构化数据库技术的引入就变得1 *7, E,匕畋Il * K 化岫 业务支人堂历史检nfine y NGOSS.NOCRM. CAI. COSSW %的切支日益迫切。2 .解决问题的思路在通常意义上,大数据(bigdata),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内到达撷取、存储、管理、处理、并整理成为帮助企业经营决策更积极目的的信息或运营支撑。大的数据需要特殊的技术,以有效地处理大量的必须在容忍经过时间内处理的数据。适用于大数据的技术,包括大规模并行处理

8、(MPP)数据库,数据挖掘,分布式文件系统,分布式数据库,云计算平台,和可扩展的存储系统。核心方法是数据分片和分布移动计算。在北京移动数据分级存储ILM系统三期建设中,我们在非结构化数据库技术NoSQL的应用方面进行了相关的探索和尝试,并成功运用到统一历史数据归档查询中心平台建设中,为我们的历史数据归档及分析查询开辟了一种新的方式。3. MOngoDB的根底研究和试验比照1)大数据处理技术根底比照目前流行的M)SQL数据库,包括应用越来越广泛的MOngODB、HBaseCaSSandra等。根据不同纬度的根底研究可以得到:EXDATAHADOOPGREENPLUM投资昂贵开源EMC扩展性困难容

9、易容易灵活性不可以自由扩展可以自由扩展可以自由扩展存储方式Orade数据库HADc)C)P文件系统PostgreSqI提供效劳接口Oracle文件系统f接口数据检索支持各种关联不支持简单的辘关联冗余管理ASM冗余管理自动备份冗余数据块数据库节点冗余仅支持Linux各种操作系统异构Linux蜂国内较少高级效劳国内稀少EMC效劳根据我们的实际系统情况我们选择MongoDB进行研究和应用。MongoDB是一个高性能,开源,无模式的文档型数据库,它在许多场景下可用于替代传统的关系型数据库或键/值存储方式。MOngO使用C+开发,提供了以下功能: 面向集合的存储:适合存储对象及JSON形式的数据。 动态

10、查询:MOngo支持丰富的查询表达式。查询指令使用JSON形式的标记,可轻易查询文档中内嵌的对象及数组。 完整的索引支持:包括文档内嵌对象及数组。MOngO的查询优化器会分析查询表达式,并生成一个高效的查询方案。 查询监视:Mongo包含一个监视工具用于分析数据库操作的性能。 复制及自动故障转移:Mongo数据库支持效劳器之间的数据复制,支持主-从模式及效劳器之间的相互复制。复制的主要目标是提供冗余及自动故障转移。 高效的传统存储方式:支持二进制数据及大型对象(如照片或图片)。 自动分片以支持云级别的伸缩性:自动分片功能支持水平的数据库集群,可动态添加额外的机器。MOngODB的主要目标是在键

11、/值存储方式(提供了高性能和高度伸缩性)以及传统的RDBMS系统(丰富的功能)架起一座桥梁,集两者的优势于一身。MOngODB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它可以存储比拟复杂的数据类型。MongO最大的特点是他支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大局部功能,而且还支持对数据建立索引。MOngODB的特点是高性能、易部署、易使用,存储数据非常方便。主要特性有: 面向集合存储,易存储对象类型的数据。 模式自由。 支持动态查询。 支持完全索引,包含内部对象。 支持查询。 支持

12、复制和故障恢复。 使用高效的二进制数据存储,包括大型对象(如视频等)。 自动处理碎片,以支持云计算层次的扩展性。 文件存储格式为BSON(一种JSON的扩展)。 可通过网络访问。 支持OSX、LinUX及WindoWS等操作系统,并提供了PythOn,PHP,RUby,Java及C+语言的驱动程序。基于MongoDB的特点,MongoDB适合用于以下场景: 网站数据:MongoDB非常适合实时的插入,更新与查询,并具备网站实时数据存储所需的复制及高度伸缩性。 缓存:由于性能很高,MongoDB也适合作为信息根底设施的缓存层。在系统重启之后,由MongODB搭建的持久化缓存层可以防止下层的数据源

13、过载。 大尺寸,低价值的数据:使用传统的关系型数据库存储一些数据时可能会比拟昂贵,在此之前,很多时候程序员往往会选择传统的文件进行存储。 高伸缩性的场景:MongoDB非常适合由数十或数百台效劳器组成的数据库。Mongo的路线图中已经包含对M即RedUCe引擎的内置支持。 用于对象及JSON数据的存储:Mongo的BSON数据格式非常适合文档化格式的存储及查询。MongoDB的使用也会有一些限制,例如以下场景不适合: 高度事务性的系统:例如银行或会计系统。传统的关系型数据库目前还是更适用于需要大量原子性复杂事务的应用程序。 传统的商业智能应用:针对特定问题的BI数据库会对产生高度优化的查询方式

14、。对于此类应用,数据仓库可能是更适宜的选择。 需要复杂SQL的场景;2)对于其根本特性,进行MongODB与OraCIe的大数据处理试验比照和分析我们这里针对电信行业支撑系统产生的历史数据在信息生命周期管理过程中的典型操作,在相同资源环境下的安装两种不同数据库MOngODB和OraCle,分别进行了以下实验:在同一台主机上安装VMWare虚拟机,并在虚拟机上安装MongoDB和OraCle数据库;对生产系统上的历史数据抽取成CSV格式后进行分批数据导入,并记录下相关数据以及CPU和内存资源消耗情况;在每一批数据导入完成后,对数据库中当前已有的数据库分别进行单一条件、多条件查询并按照无索引和有索

15、引两种方式查询数据,并记录查询的效率;实验环境主机型号:HPDL580G4虚拟机:X86-64bit操作系统:LinuxRedHat5.564bitCpu:2C(*4核)Memory:8GMongoDBVersion:2.2.20racleVersion:Oracle11GRelease2Storage:70G试验结果,具体数据导入获得的实验数据如表-2所示:表T数据批量导入性能及系统资源消耗比拟导入数据量(万)数据导入时长(三)数据导入速度(条/S)数据导入期间CPU(%)数据导入Mem(%)MongodbOracleMongodbOracleMongodbOracleMongodbOracle100179.99229.65556435516.2427.26.347.810095.44178.5610478560016.526.46.8710.58200164.32348.2312171574

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > IT计算机 > 计算机原理

copyright@ 2008-2023 yzwku网站版权所有

经营许可证编号:宁ICP备2022001189号-2

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!