《服务器三大体系SMPNUMAMPP研讨.docx》由会员分享,可在线阅读,更多相关《服务器三大体系SMPNUMAMPP研讨.docx(10页珍藏版)》请在优知文库上搜索。
1、服务器三大体系Smpnumampp研讨服务器三大体系SMP、NUMA、MPP介绍摘要:从系统架构来看,目前的商用服务器大体能够分为三类,即对称多处理器结构、非一致存储访问结构与海量并行处理结构。从系统架构来看,目前的商用服务器大体能够分为三类,即对称多处理器结构(SMP:SymmetricMulti-Processor),非一致存储访问结构(NUMA:Non-UniformMemoryAccess),与海量并行处理结构(MPP:MassiveParallelProcessing),它们的特征分别描述如下:SMP(SymmetricMulti-Processor)所谓对称多处理器结构,是指服务器
2、中多个CPU对称工作,无主次或者从属关系。各CPU共享相同的物理内存,每个CPU访问内存中的任何地址所需时间是相同的,因此SMP也被称之一致存储器访问结构(UMA:UniformMemoryAccess)o对SMP服务器进行扩展的方式包含增加内存、使用更快的CPU、增加CPU、扩充1/0(槽口数与总线数)与添加更多的外部设备(通常是磁盘存储)。SMP服务器的要紧特征是共享,系统中所有资源(CPU、内存、I/O等)都是共享的。也正是由于这种特征,导致了SMP服务器的要紧问题,那就是它的扩展能力非常有限。关于SMP服务器而言,每一个共享的环节都可能造成SMP服务器扩展时的瓶颈,而最受限制的则是内存
3、。由于每个CPU务必通过相同的内存总线访问相同的内存资源,因此随着CPU数量的增加,内存访问冲突将迅速增加,最终会造成CPU资源的浪费,使CPU性能的有效性大大降低。实验证明,SMP服务器CPU利用率最好的情况是2至4个CPU。CPU利用率最好的情况是2至4个CPUNUMA(Non-UnifornMemoryAccess)由于SMP在扩展能力上的限制,人们开始探究如何进行有效地扩展从而构建大型系统的技术,NUMA就是这种努力下的结果之一利用NUMA技术,能够把几十个CPU(甚至上百个CPU)组合在一个服务器内。其CPU模块结构如图2所示:图2.NUMA服务器CPU模块结构NUMA服务器的基本特
4、征是具有多个CPU模块,每个CPU模块由多个CPU(如4个)构成,同时具有独立的本地内存、I/O槽口等。由于其节点之间能够通过互联模块(如称之CrossbarSWitCh)进行连接与信息交互,因此每个CPU能够访问整个系统的内存(这是NUMA系统与MPP系统的重要差别)。显然,访问本地内存的速度将远远高于访问远地内存(系统内其它节点的内存)的速度,这也是非一致存储访问NUMA的由来。由于这个特点,为了更好地发挥系统性能,开发应用程序时需要尽量减少不一致CPU模块之间的信息交互。利用NUMA技术,能够较好地解决原先SMP系统的扩展问题,在一个物理服务器内能够支持上百个CPU。比较典型的NUMA服
5、务器的例子包含HP的SUPerdOme、SUN15KIBMp690球但NUMA技术同样有一定缺陷,由于访问远地内存的延时远远超过本地内存,因此当CPU数量增加时,系统性能无法线性增加。如HP公司公布SUPerdOme服务器时,曾公布了它与HP其它UNIX服务器的相对性能值,结果发现,64路CPU的SUPerdome(NUMA结构)的相对性能值是20,而8路N4000(共享的SMP结构)的相对性能值是6.3。从这个结果能够看到,8倍数量的CPU换来的只是3倍性能的提升。NUMA与MPP之比较NUMAjK务器MPP圈务器MPP节点 互联网络内在校制日内存图3.MPP服务器架构图MPP(Massiv
6、eParallelProcessing)与NUMA不一致,MPP提供了另外-种进行系统扩展的方式,它由多个SMP服务器通过一定的节点互联网络进行连接,协同工作,完成相同的任务,从用户的角度来看是一个服务器系统。其基本特征是由多个SMP服务器(每个SMP服务器称节点)通过节点互联网络连接而成,每个节点只访问自己的本地资源(内存、存储等),是一种完全无共享(ShareNothing)结构,因而扩展能力最好,理论上其扩展无限制,目前的技术可实现512个节点互联,数千个CPU。目前业界对节点互联网络暂无标准,如NCR的Bynet,IBM的SPSWitch,它们都使用了不一致的内部实现机制。但节点互联网
7、仅供MPP服务器内部使用,对用户而言是透明的。在MPP系统中,每个SMP节点也能够运行自己的操作系统、数据库等。但与NUMA不一致的是,它不存在异地内存访问的问题。换言之,每个节点内的CPU不能访问另一个节点的内存。节点之间的信息交互是通过节点互联网络实现的,这个过程通常称之数据重分配(DataRedistribution)o但是MPP服务器需要一种复杂的机制来调度与平衡各个节点的负载与并行处理过程。目前一些基于MPP技术的服务器往往通过系统级软件(如数据库)来屏蔽这种复杂性。举例来说,NCR的Teradala就是基于MPP技术的一个关系数据库软件,基于此数据库来开发应用时,不管后台服务器由多
8、少个节点构成,开发人员所面对的都是同一个数据库系统,而不需要考虑如何调度其中某几个节点的负载。NUMA与MPP的区别从架构来看,NUMA与MPP具有许多相似之处:它们都由多个节点构成,每个节点都具有自己的CPU、内存、I/O,节点之间都能够通过节点互联机制进行信息交互。那么它们的区别在哪里?通过分析下面NUMA与MPP服务器的内部架构与工作原理不难发现其差异所在。首先是节点互联机制不一致,NUMA的节点互联机制是在同一个物理服务器内部实现的,当某个CPU需要进行远地内存访问时,它务必等待,这也是NUMA服务器无法实现CPU增加时性能线性扩展的要紧原因。而MPP的节点互联机制是在不一致的SMP服
9、务器外部通过I/O实现的,每个节点只访问本地内存与存储,节点之间的信息交互与节点本身的处理是并行进行的。因此MPP在增加节点时性能基本上能够实现线性扩展。其次是内存访问机制不一致。在NUMA服务器内部,任何一个CPU能够访问整个系统的内存,但远地访问的性能远远低于本地内存访问,因此在开发应用程序时应该尽量避免远地内存访问。在MPP服务器中,每个节点只访问本地内存,不存在远地内存访问的问题。数据仓库的选择哪种服务器更加习惯数据仓库环境?这需要从数据仓库环境本身的负载特征入手。众所周知,典型的数据仓库环境具有大量复杂的数据处理与综合分析,要求系统具有很高的I/O处理能力,同时存储系统需要提供足够的
10、I/O带宽与之匹配。而一个典型的OLTP系统则以联机事务处理为主,每个交易所涉及的数据不多,要求系统具有很高的事务处理能力,能够在单位时间里处理尽量多的交易。显然这两种应用环境的负载特征完全不一致。从NUMA架构来看,它能够在一个物理服务器内集成许多CPU,使系统具有较高的事务处理能力,由于远地内存访问时延远长于本地内存访问,因此需要尽量减少不一致CPU模块之间的数据交互。显然,NUMA架构更适用于OLTP事务处理环境,当用于数据仓库环境时,由于大量复杂的数据处理必定导致大量的数据交互,将使CPU的利用率大大降低。相对而言,MPP服务器架构的并行处理能力更优越,更适合于复杂的数据综合分析与处理
11、环境。当然,它需要借助于支持MPP技术的关系数据库系统来屏蔽节点之间负载平衡与调度的复杂性。另外,这种并行处理能力也与节点互联网络有很大的关系。显然,习惯于数据仓库环境的MPP服务器,其节点互联网络的I/O性能应该非常突出,才能充分发挥整个系统的性能。SMP系统与MPP系统比较SMP(SymmetricMultiProCeSSing),对称多处理系统内有许多紧耦合多处理器,在这样的系统中,所有的CPU共享全部资源,如总线,内存与I/O系统等,操作系统或者管理数据库的复本只有一个,这种系统有一个最大的特点就是共享所有资源。MPP(MassivelyParallelProcessing),大规模并
12、行处理系统,这样的系统是由许多松耦合的处理单元构成的,要注意的是这里指的是处理单元而不是处理器。每个单元内的CPU都有自己私有的资源,如总线,内存,硬盘等。在每个单元内都有操作系统与管理数据库的实例复本。这种结构最大的特点在于不共享资源。既然有两种结构,那它们各有什么特点呢?使用什么结构比较合适呢?通常情况下,MPP系统由于要在不一致处理单元之间传送信息(请注意上图),因此它的效率要比SMP要差一点,但是这也不是绝对的,由于MPP系统不共享资源,因此对它而言,资源比SMP要多,当需要处理的事务达到一定规模时,MPP的效率要比SMP好。这就是看通信时间占用计算时间的比例而定,假如通信时间比较多,
13、那MPP系统就不占优势了,相反,假如通信时间比较少,那MPP系统能够充分发挥资源的优势,达到高效率。当前使用的OTLP程序中,用户访问一个中心数据库,假如使用SMP系统结构,它的效率要比使用MPP结构要快得多。而MPP系统在决策支持与数据挖掘方面显示了优势,能够这样说,假如操作相互之间没有什么关系,处理单元之间需要进行的通信比较少,那使用MPP系统就要好,相反就不合适了。通过上面两个图我们能够看到,关于SMP来说,制约它速度的一个关键因素就是那个共享的总线,因此关于DSS程序来说,只能选择MPP,而不能选择SMP,当大型程序的处理要求大于共享总线时,总线就没有能力进行处理了,这时SMP系统就不
14、行了。当然了,两个结构互有优缺点,假如能够将两种结合起来取长补短,当然最好了。什么是大型机,小型机。(Mainframe)大型机(mainframe)这个词,最初是指装在非常大的带框铁盒子里的大型计算机系统,以用来同小一些的迷你机与微型机有所区别。尽管这个词已经通过不一致方式被使用了很多年,大多数时候它却是指system/360开始的一系列的IBM计算机。这个词也能够用来指由其他厂商,如Amdahl,HitachiDataSystems(HDS)制造的兼容的系统。有些人用这个词来指IBM的AS/400或者者iSeries系统,这种用法是不恰当的;由于即使IBM自己也只把这些系列的机器看作中等型
15、号的服务器,而不是大型机。什么是I/O通道(ChanneI)一条大型机通道(Charlnel)某种程度上类似于PCI总线(bus),它能将一个或者多个操纵器连接起来,而这些操纵器又操纵着一个或者更多的设备(磁盘驱动器、终端、LAN端口,等等。)大型机通道与PCI总线之间的一个要紧区别是大型机通道通过几对大的busandtag电缆(并行通道方式),或者者通过最近常使用的ESeoN(EnterpriseSystemConnection)光导纤维电缆(串行通道方式)与光纤通道来连接操纵器。这些通道在早期是一些外置的盒子(每个约6X30X5H大小),现在都已经整合到了系统框架内。这些通道的超强I/O处
16、理能力是大型机系统功能如此强大的原因之一。什么是DASDDASD是DirectAccessStorageDevice(直接存取存储设备)的缩写:IBM制造这个词来指那些能够直接(并随意)设定地址的存储系统,也就是今天我们所说的磁盘驱动器。但在过去,这个词也指磁鼓(drums)与数据单元(datacell)等等。什么是数据单元?嗯,在磁盘驱动器变得廉价、快速并普遍使用前,IBM曾经制造过一种设备,基本上就是由一个磁鼓与绕在磁鼓上的许多磁条(单元)中的一个构成,然后读写的资料就被纪录在卷动的磁条的磁道上。这种存取数据的方法与磁盘很类似,但当(磁鼓)搜寻资料的时候需要更换磁带的话,所需的时间显然就得按秒来计算。数据单元设备还有个调皮的习惯,它喜欢在卸下一个单元到存储槽的时候卷成一块,这有的时候会造成介质的物理损坏。可见,在取得目前的