《基于 PowerMax 架构的银行双活数据中心实践分享.docx》由会员分享,可在线阅读,更多相关《基于 PowerMax 架构的银行双活数据中心实践分享.docx(19页珍藏版)》请在优知文库上搜索。
1、1项目背景1.1 项目概述随着银行信息化程度的不断提忌,信息系统在金融行业的关键业务中扮演着越来越正要的角色,企业对信息系统的依赖程度越来越高,业务中断会造成巨大的经济损失、影响品牌形象并且还可能会造成重要数据的丢失.因此,保证业务连续性是信息系统建设的关键.同时业务系统的高可用和灾难保护的函要性也越来越突出,在我行目前的业务系统中,正在逐渐建设&完善深圳、上海两地三中心架构.考虑到DellEMC存储经过多年的发展,处于行业领先水平,具备安全承载金融行业核心业务的能力,本次项目将在原深圳、上海数据中心部署多台DellEMCPowerMax8000系列高端全闪存以满足在深圳生产中心、同城双活中心
2、及上海数据中心老旧应用项目的生产替换改造、满足业务的高可用及灾备需求.1.2 现网存储架构情况现网存储配置:目前行内基于SAN架构的存储业务相关设备,有交换机和存储共计100多套,涉及业界常见的博科、DellEMCHDS等,有常规的SAN架构,也有基于存储SAN网关的异构虚拟化架构.现网存储架构的痛难点:为配合我行的应用系统整体架构升级,存储架构由传统的集中式及镜像双活逐渐向业务屋面双活改造完善中,我行有如下痛点待解决:1 .前期的规划基于SAN网关架构,虽然解决了当时很多管理和数据迁移等问题.但近年来随着公司业务的不断壮大,扩展能力及性能瓶颈等管理难题逐渐凸显,无法跟上前端业务增长的步伐,同
3、时较为复杂SAN链路环境给日常故障快速定位诊断也带来挑战.2 .同时部分数据中心镜像双活存储架构方案也有不少隐患及缺陷,比如同数据中心无法严格提供物理级别保护,存储因镜像带来更多的管理压力等等。3 .应用单中心部署,业务层面无法做到严格的快速切换恢且,RTO及RPO离理性值还比较远.4 .冷备中心不工作,关键时候不能切,成本也存在严重浪费.5 .容灾、资源灵活扩展未得到解决.6 .3建设要求D业务连续性要求作为一冢大型银行来讲,一旦业务系统所使用计算及存储等资源,出现故獐或宕机,将导致公司业务的完全施候,进而造成巨大的经济损失和对信誉度的影响.因此在存储的选择与架构设计上,我们需要充分考虑存储
4、的稳定性,以保证业务的连续性.设计要求如下:确保核心业务系统所使用的存睹高可用;确保业务系统所选用的存储设备,在相关行业内有大量的案例,并为稳定产品;确保从存储、到主机乃至光纤道路,均为全冗余架构模式.2)存储处理能力要求随着业务的不断发展,对存储设备性能要求也越来越高,部分重要业务需提高存储层面处理能力,以满足未来3-5年的发展需要.3)高效的运营与管理要求IT技术的迅名发展正在更新定义我们工作和生活方式,而且正在带来应用领域的革命。同时随着业务的不断扩大,数据散落在各个应用系统,数据集成度低,分布于不同存储、不同主机,数据质量参差不齐,数据整合性差,管理至豆度高、难度大、数据可控性不够高,
5、相应数据安全得不到很好的保障。为了构建新一代的数据中心,存储的运营与管理显得越来越更要,因此企业需要构建高效便捷的存储环境,以满足业务需求.4)合规性要求银行核心存储项目,属于国内大型商业银行的重要IT基础设施建设,意义和影响里大,必须满足国家及行业监管机构的合规性要求,本次项目建设需满足包括但不限于以下国家和行业规范:银监会商业银行业务连续性监管指弓I银监会商业银行数据中心监管指弓I银监会商业银行信息科技风睑管理指引银监会银行业里要信息系统突发事件应急管理规范(试行)银监会银行业金融机构信息科技外包风险监管指引人民银行银行业信息系统灾难恢且管理规危人民银行关于进一步加强银行业金触机构信息安全
6、保障工作的指导意见人民银行关于加强银行数据集中安全工作的指导意见国家质量监督检验检疫总局信息系统灾难恢且规范(GB/T20988-2007)国务院信息化工作办公室信息系统灾难恢且规范指南中办发27号文国家信息化领导小组关于加强信息安全保障工作的意见工信部2006-2020年国家信息化发展战略【2006年5月8日】2设计原则基本原则通过对我行本次存储资源池建设需求的了解,结合金融行业业务系统的应用特点.本次方案设计建设过程遵循如下原则进行:D可用性原则灾备系统的故障不影响生产系统的运行,不会大幅度影响业务处理能力。系统器件选择要考虑能支持7x24小时连续长时间大压力下工作.系统具有充分的冗余能力
7、、容错能力,如支持双活控制器,满足高可沛性需求,至少达到99.999%可用性.系统具有专业的技术保障体系以及数据可空性保证机制.确保系统具有高度的安全性,提供安全的登录和访问措施,防止系统被攻击.异常掉电后不丢失数据,供电恢夏后自动访新启动并自动恢复正常连接.系统支持运行状态管理和技术保障体系.2)先进性原则系统必须严格遵循国际标准、国冢标准、国内信息行业和金融行业的规范要求.需符合存储技术以及IT行业的发展趋势,所选用的产品型号已规模上最.所有的系统处于先进的技术水平,确保较长时间内技术上不落伍.系统的处理能力要达到业内领先,对于业务的使用要留有一定的余信,以满足后续升级的需求。对工作环境要
8、求较低,环境适应能力强。3)开放性原则系统必须支持国际上通用的标准网络存玮协议、国际标准的应用开放协议.与主流服务器之间保持良好的兼容性.兼容各主流操作系统、卷管理软件及应用程序。可以与第三方管理平台、云平台集成,提供给用户定制化的管理维护手段.与现有IT系统、软硬件系统兼容并可无缝替换和升级.系统必须支持国际上通用的标准管理协议.4)易堆护性原则系统支持简体中文,通俗易懂,操作方便、简单.系统具有充分的权限管理,日志管理、故障管理,并能够实现故障自动报警.系统设备安装使用简单,无需专业人员维护.系统容量可按需要在线扩展,无需停止业务.系统功能扩充需要升级时,支持不中断业务升级。支持WEB管理
9、方式或集中管理方式.5)扩展性原则考虑银行未来三至五年数据中心、业务系统和存储系统的整体规划,既能满足短期建设需求,又能满足该银行中远期规划方向.系统易于扩充.系统选择标准化的部件,利于灵活替换和容量扩展.系统设计避守各种标准规定、规范.可以与第三方管理平台集成,提供给用户定制化的管理维护手段.具备各主流厂家设备的扩展接入能力。6)经济性原则综合考虑集中存储系统的性能和价格,最经济最有效地进行建设,性能价格比在同类系统和条件下达到最优.7)绿色性原则满足环保与节能的要求,暝声低、能耗低、无污染.必须选用无犯器件.有节能降耗的技术手段.具备环境管理认证,符合环保规定,包材可回收,支持臣复利用.3
10、设计方案两地三中心的容灾方式是当前金融行业容灾建设的最高配置和主流方案。通过建设近距离的数据中心(同城双活数据中心)获得接近于零数据丢失的数据保护,通过建设较远S巨离的数据中心(异地数据中心)获得远距寓的数据保护,避免区域性的灾难导致业务无法恢且。在出现小概率的大范围的灾难时,如自然灾吉地震,造成同城双活中心与生产中心同时不可用,应用可以切换到异地灾难备份中心。通过实施日常灾难双活演练的步骤,应用可在业务容许的时间内,在异地的灾难备份中心恢复,保证业务连续运行.但异地恢复通常会丢失少量的数据.下图是同城双活架构三层图:支持双活场景:1 )IDC故障转移2 )IB(负载均衡)故原转移3)应用集群
11、故障转移4)分布式应用集群故障转移5)数据库存储级故障转移3.1方案概述根据我行现有两地三中心容灾解决方案现状:一个生产中心、一个同城双活备份中心、一个异地灾难备份中心.生产中心的数据从业务层面同步地宜制到同城双活中心,同时,双活中心的数据异步地巨制到异地灾难备份中心.相比仅建立同城灾难备份中心或异地灾难备份中心,两地三中心”的方式结合两者的优点,能够适应更大范围的灾难场景,对于小范围的区域性灾难和较大范围的自然灾害,都能够通过灾难备份系统较快地响应,尽可能保全业务数据不丢失,实现更优的RPO和RTO.因此,两地三中心容灾解决方案得到了广泛的应用.为配合我行信息系统整体架构,为了达到业务的高连
12、续性要求,结合目前数据中心间网络现状,本次设计在前期对市面上常见的EMGHDS及华为等品牌进行严格的POC测试,基于EMC存储满足我行业务实际需求的测试结果,并且经过各项指标的综合考虑后,采购EMCPOWerMaX8000高端全闪存储,采用同城双活+异地灾备的两地三中心方案.如此设计有如下优势:1)深圳同城双活机房和异地上海数据中心的故障或者演练或者计划内停机等操作.不会影响另一个数据中心的容灾能力.2)深圳本地双活中心根据业务流量人口控制,可以将业务无缝在同城两数据中心切换,便于日常维护及单数据中心故障应急3)深圳同城双活的容灾能力可以达到RPo=O的最高水平4)异地上海数据中心既可以节省远
13、距离网络带宽,又可以尽量减少对深圳生产机房性能的影响5)与现网运维能力相匹配,兼容目前前端业务流最切换流程框架,方案稳健且未来扩展性好。6)支持标准API接口,能与本行自动化日常运维平台集成,完成日常运维工作(Zone配普、存幡初始分配、扩容、回收等自动化)其中,同城双活+异地灾备可以将同城双活切换RTO缩短为零,可以大大提高业务连续性能力。3.2方案架构本次建设基于DellEMC高端全闪存PowerMax8000存硫,采用业务层面同城双活的两地三中心架构,具体拓扑如下:同城双活两地三中心架构双活概述:a.单个应用:两个生产中心部署相同的业务系统,结合网络层、主机层及应用的负载均衡技术,实现业
14、务系统在两个数据中心并行工作和负线分担,其中数据在数据库层面采用热备技术(即主库-从库之间实时ADG同步),通过负载均衡技术实现ADG从昨日常提供类如鱼询、抽数、备份等读取振作,实现部分读操作从主库分圈,大大分担主库的压力,写仍然在主库,从库分担主库的部分读操作。b.应用集群:两个生产中心部署不同的业务系统,互相实时灾备接管就绪,即部分业务以数据中心A为主,数据中心B为热备,而部分业务则以数据中心B为主,数据中心A为热备,以达到近似双活的效果。一旦主站点出现问题,热备数据中心自动接管主数据中心的业务,对前端业务无感知,用户的业务不会中C.本行目前已有部分应用以同城双活中心作为主站点,随着业务量
15、的增加,生产数据中心的承载压力会变大,届时将会有史多的新上应用会优先安放在同城双活中心,以当前生产中心作为热备站点,均衡两中心资源使用效率,充分利用同城2个数据中心的各类资源.4实践亮点及睚点DellEMCP。WerMaX系列高端全闪存结合本行的本地双活+异地容灾的三中心解决方案的应用亮点如下:(1)标准化API助力银行存储费源端到端分配全流程闭环自动化通过标准化APl接口串联主机-交换机-存储,通过标准化梳理后,实现全流程自动化资源上线、扩容.回收、下线等常规运维场景,减少了大量的蜜巨人工操作(自动化完成日常资源类操作占比已经超97%,而且持续在提升中).另外人为错误大幅度减少,近一年来未发生因变更导致的人为故障(原来随着业务量增长需求变多经常出现人为的配置错误,人为变更异常也是时有发生);可根据业务窗口,定制时间段执行相应的资源分配,完成后自动将执行结果通知资源需求部门.数据采集服务器,交换机,存储各端所有数据从设备接口获取,不依赖于任何excel表,并及时更新.操作:支持系统上线和扩容、回收、下线。操作流程:OVMMnoahrtapiVMMdbvm5NoAMdtvmRcMAptRe%tpiReitapA生成谶作