不同体系分布式存储技术的技术特性.docx
《不同体系分布式存储技术的技术特性.docx》由会员分享,可在线阅读,更多相关《不同体系分布式存储技术的技术特性.docx(8页珍藏版)》请在优知文库上搜索。
1、1 .为什么会引入分布式存储技术从70年代到2000年左右,数据存储基本上是伴随着IBME.F.Code提出的关系模型理论,以关系型数据库(OraCle、DB2、MySQ1.)为数据管理平台,以集中式存储产品为数据最终载体形成的坚实的数据存储架构体系.2000年后,但是随若数据施的增加,单机的数据库瓶颈已经不能满足大数据JB的需求,从数据管理层面开始诞生分库分表的方案。自2006年谷歌发了三篇论文(GFS.BigTabIe、Map-Reduce)之后,在数据管理展面以及数据载体层面不断涌现各类分布式产品,例如GFS、GPFS.HFS、DFS等各类分布式文件系统,例如Hadoop,HbaSe、R
2、edis、MongoDB.R。CkDB等系列分布式数据管理平台.总而言之,数据后的爆发式增长催生了数据应用领域的各种新需求,数据应用领域的各种新需求驱动了数据管理层面以及数据载体层面的分布式变革。2 .主流分布式文件系统技术分析主流分布式文件系统技术主要有GPFS.GFS.HDFS.DFS.CIusterFS等很多,下面我们以同类或类似技术体系的典型产品为代表进行阐述.2.1 GFSGFS是基于文件系统实现的分布式存储系统,是属于有中心的分布式架构;通过对中心节点元数据的索引查询得到数据地址空间,然后再去数据节点上查询数据本身的机制来完成数据的读写;是基于文件数据存储场景设计的架构.接下来,我
3、们来看GFS有哪些具体特性,选型的时候应该如何考虑?(1) GFS是一种适合大文件尤其是GB级别的大文件存储场景的分布式存储系统.(2) GFS非常适合对数据访问延迟不敏感的搜索引孥服务。(3) GFS是一种有中心节点的分布式架构,Master节点是单一的集中管理节点,即是高可用的瓶颈,也是可能出现性能问题的瓶颈.(4) GFS可以通过缓存一份部分Metadata到Client节点碱少Client与Master的交互.GFS的Master节点上的OPeratiOnIog和Checkpoint文件需要通过巨制方式保留多个副本,来保障元数据以及中心管理功能的高可用性.2.2 HDFSHDFS的架构
4、原理与GFS基本类似,但是是基于GFS做了一些改进之后形成的一套技术体系。同样,它基于文件系统实现的分布式存储系统,是属于有中心的分布式架构;通过对中心节点元数据的索引有询得到数据地址空间,然后再去数据节点上查询数据本身的机制来完成数据的读写;是基于文件数据存储场景设计的架构.接下来,我们来看HDFS有哪些具体特性,选型的时候应该如何考虑?HDFS的默认最小存储单元为128M,比GFS的64M更大.(2) HDFS不支持文件并发写,对于单个文件它仅允许有一个写或者追加谙求.(3) HDFS从2.0版本之后支持两个管理节点(NameNode),主备切换可以做到分钟级别.(4) HDFS史适合单次
5、写多次读的大文件流式读取的场景.(5) HDFS不支持对己写文件的更新操作,仅支持对它的追加麋作.2.3 GIusterFSGIusterFS虽然是基于文件系统的分布式存储技术,但是它与GFS架构有本质的区别,它是去中心化的无中心分布式架构;它是通过对文件全目录的DHT凭法计算得到相应的Brike地址,从而实现对数据的读写,这与GFS以及HDFS等通过元数据检索实现数据寻址的方式有极大的不同.接下来,我们来看GIusterFS都有哪些具体特性,选型的时候应该如何考虑?*(1) GIusterFS是采用无中心对称式架构,没有专用的元数据服务器,也就不存在元数据服务器瓶颈.元数据存在于文件的属性和
6、扩展属性中.(2) GlUSterFS可以提供Raid0.Raidl.Raidl+0等多种类型存储卷类型.(3) GIusterFS采用数据最终一致性算法,只要有一个副本写完就可以Commit.(4) GIusterFS默认会将文件切分为128KB的切片,然后分布于卷对应的所有Brike当中.所以从其设计初衷来看,更适合大文件并发的场景。(5) GIusterFS采用的DHT算法不具备良好的稳定性,一旦存储节点发生增减变化,势必影响卷下面所有Brike的数据进行再平衡操作,开销比较大.(6) GIusterFS文件目录利用扩展,属性记录子卷的中brick的hash分布范围,每个brick的范围
7、均不束怏.遍历目录时,需要获取每个文件的属性和扩展属性进行聚合,当目录文件较多时,遍历效率很差.3 .主流分布式对象存储技术分析目前应用比较广发的分布式对釜存储技术基本都是基于Swift或者Ceph体系衍生出来的产品.3.1 CephCeph首先是一种对象存储技术,也就是说它存储数据的机制与我们之前接触的文件系统机制是完全不一样的,它是将数据抽妥为对演和对象标识来进行管理.从架构上来讲,Ceph相对类似于GIusterFS的无中心化架构;它是通过对对象的哈希算法得到相应的Bucket&Node地址,从而实现对数据的读写.接下来,我们来看Ceph都有哪些具体特性,选型的时候应该如何考虑?(1)
![不同体系分布式存储技术的技术特性.docx_第1页](https://www.yzwku.com/fileroot_temp1/2024-6/29/b111fab6-bc1b-45c6-a3ae-74ec4d1ffa05/b111fab6-bc1b-45c6-a3ae-74ec4d1ffa051.gif)
![不同体系分布式存储技术的技术特性.docx_第2页](https://www.yzwku.com/fileroot_temp1/2024-6/29/b111fab6-bc1b-45c6-a3ae-74ec4d1ffa05/b111fab6-bc1b-45c6-a3ae-74ec4d1ffa052.gif)
![不同体系分布式存储技术的技术特性.docx_第3页](https://www.yzwku.com/fileroot_temp1/2024-6/29/b111fab6-bc1b-45c6-a3ae-74ec4d1ffa05/b111fab6-bc1b-45c6-a3ae-74ec4d1ffa053.gif)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 不同 体系 分布式 存储 技术 特性
![提示](https://www.yzwku.com/images/bang_tan.gif)