《医院容灾备份系统设计、实施与日常运维.docx》由会员分享,可在线阅读,更多相关《医院容灾备份系统设计、实施与日常运维.docx(11页珍藏版)》请在优知文库上搜索。
1、序号2要素要求。13数据备价系统一a)完全数据备份至少每天一次;2b)备份介质场外存放;,c)采用远程数据复制技术,并利用通信网络将关键数据实时复制到备份场地.“2。备用数据处理系统-a)配备灾难恢且所需的全部数据处理设备,并处于就绪或运行状态.33。备用网络系统”a)配备灾难恢旦所需的通信线路:b)配备灾难恢复所需的网络设备,并处尸就绪状态;c)具备通信网络自动或集中切换能力,4*3备用基础设施“a)有符合介质存放条件的备用场地;*jb)有符合备用数据处理系统和备用网络设备运行要求的场地:,c)有满足关键业务功能恢梵运作要求的场地:d)以上场地应保持7X24运作。”6 .避循电子与电气工程师
2、协会制定的计算机和电子工业参考标准7 .遵循国际参考标准化组织制定的各种国际技术参考标准3、容灾智份系统设计方案医院建设容灾备份系统方案时,依据技术先进性、可扩充性、高可靠性、高可用性、成熟性、可管理性等原则进行建设。按照容灾系统对应用系统的保护程度可以分为数据级容灾和应用级容灾,数据级容灾系疣只保证数据的完整性、可靠性和安全性,但提供实时服务的请求在灾难中会中断.应用级容灾系统能够提供不间断的应用服务,让服务请求能够透明(在灾难发生时塞无觉察)地继续运行,保证数据中心提供的服务完整、可靠、安全.因此对服务中断不太敏感的部分可以选择数据级容灾,以便节省成本,在数据级容灾的基础上构建应用级容灾系
3、疣,保证实时服务不间断运行,为用户提供更好的服务.下表是几种灾备技术的对比:房火灾、漏水等突发情况,建设异地容灾中心,可以避免水灾、地震等其它的大范围的自然灾吉,使得数据和应用的安全等级得到进一步的提升,保障了数据安全提升业务连续性.下面是容灾备份建设需要关注的几个点:线路的选择:生产中心到同城备份中心的数据传输采用裸光纤,同城备份中心到异地备份中心采用专线方式,生产中心到异地备份中心采用专线方式,该线路做为备用线路使用,正常情况下数据通过同城灾备中心采用异步传输方式豆制到异地灾备中心,当同城到异地的专线中断后启用生产中心到异地的线路,从而保障数据的正常备份.应用的切换:当生产中心服务器出现故
4、障后,生产中心的集群功能将应用切换到同城灾备服务器上,同时灾备中心的数据库服务器接管灾备中心的存储,进而恢复数据的访问及业务的连续性.实现应用切换的前条件是:1)数据已经从生产中心同步到灾备中心,如果数据复制采用的是异步的方式,在网络故障的情况下,就有可能造成数据不一致的问题,导致数据不可用或无法访问.2)灾备中心配置与生产中心对应的应用服务器、数据库服务器和中间件服务器等,且运行正常.3)灾备中心网络运行正常或能够实现正常切换。数据级容灾:PACS,I=MRJJS和CIS等应用系统做数据纵容灾,当生产中心数据损坏后,同城和异地生产中心还有份可用数据的副本,同城的存储与生产中心的存储采用数据同
5、步发制技术,与异地灾备中心的存储采用数据异步纹制技术。4、医疗行业容灾备份系统实施经验医院采用存储同步潦像的方式实现同城应用级容灾,如果生产中心存储发生意外故障,灾备中心存储上的应用与数据是否能够正常启动,数据是否一致是摆在施工人员面前的一个问题同时也是检验项目是否成功的一个依据.按以下步泰进行测试:1,通过MetroMirror将存储1上的数据豆制到存储2,在存储1不断添加新的数据。2,断开两台存储之间FCSW的光纤,此时在主机端在存储1存放新数据.3,接通两台存睹之间FCSW的光纤,手工启动一致性群组可以看到很快一致性群组又回到同步状态。4,此时将存储2重新映射给主机,发现数据与存储1映射
6、卷上的数据一致.测试结果说明主备站点的链路中断不影响主站点数据的应用;链路恢豆后,至新同步采用增员方式,可以快速达到重新同步.切换演练在容灾建设工作中必不可少,通过演练可以帮助管理人员提高操作水平.提高应急恢复速度;演练工作同时需要控制风险,降低对生产系统的影响.演练实现方式有两种,一是定期或随时利用容灾中心所提供的多点快照,加载快照到容灾主机,同时启动容灾数据库和应用进行演练和验证;二是切断宜制使路,直接提取容灾中心的数据盘,启动容灾中心应用,业务演练验证后既可以将生产端数据同步灾备端数据,消除灾备端由于演练产生的垃圾数据,又可以将灾备端数据同步生产端数据,保留由于演练产生的真实数据。通过切
7、换演练,模拟真实故屿恢复场空,制定应急恢夏预案,检睑容灾方案的适用性、有效性.当真实故障发生时,通过预案快速恢豆,提高业务连续性。切换演练参考步骤:1,停止业务2 ,操作系统册J盘,Varyoff、rmdev3 ,通过音挂H1-H2之间的MM关系CmdSeSS-quiet-actionsuspendTest_ZB_MM4 ,H2接管,可以看到这个H2变成targetavailablecmdsess-quiet-actionrecoverTest_ZB_MM5 ,主存储移除hostconnect关系chvolgrp-dev75SK65-actionremove-volume3E01,3E02,3
8、EBBV147Chvolgrp-dev75SK65-actionremove-volume3E01,3E02,3EBBV1486 ,备存储添加hostconnect关系chvolgrp-dev75NK36-actionadd-volume3E01,3E02,3EBBV147chvolgrp-dev75NK36-actionadd-volume3E01,3E02,3EBBV1487 ,操作系统认盘,varyon8,启动本业务此时业务已经在备存储上运行,运行一段时间后,主存储恢豆,我们可以选择将增加的数据冲回主存储.9 ,反转MM关系(只有enable_copy_to_site_l后,才能star
9、tH2-H1)cmdsess-quiet-actionenable_copy_to_site_lTeSt_ZB-MM10 .启动反向MMcmdsess-quiet-actionstart_h2:hlTest_ZB_MM完成切换演练.5、医疗行业容灾备份系统日常运维方案为确保容灾系统稳定、可克的运行,达到项目建设预用的效果,需要建立容灾备份系统配套的运维管理制度.具体如下:(1)建立运维营理的组织架构,统一负责实施、运管维护、应急响应和恢宜的管理和决策工作.(2)制定一套完整的容灾日常运维管理制度,进行人员岗位设置和职责划分,制订变更管理、问题管理、事件管理、供应商管理、介质管理.灾难恢欠中心资
10、源管理等管理制度规范;制订系统日甫巡检、系统与维护、系统案急上下电等技术规范模板.(3)建立一个完整、易用、明确、有效、兼容的灾难恢复预案。a完整性:灾难恢且预案(以下称预案)应包含灾难恢宣的整个过程,以及灾难恢夏所需的尽可能全面的数据和资料;b易用性:预案应运用易于理解语言和图表,并适合在紧急情况下使用;c明确性:预案应采用清晰的结构,对资源进行清楚的描述,工作内容和步骤应具体,每项工作应有明确的责任人;d有效性:预案应尽可能满足灾难发生时进行恢复的实际需要,并保持与实际系统和人员组织的同步更新;e.兼容性:灾难恢豆预案应与其它应急预案体系有机结合.制定信息系统灾难恢宜过程中所需的任务、行动
11、、数据和资源文件,以备不时之需,一旦系统出现电大故障即可采用应急预案恢巨系统,确保容灾系统能够发挥作用.建立一个完整的灾难恢复预案是一个周而复始、持续改进的过程.(4)为使相关人员了解信息系统灾难恢复的目标和流程、熟悉灾难恢复的操作规程,应组织灾难恢豆预案的教育、培训和演练,不定期的做好容灾应急演练.只有通过反系的容灾切换演练,才能发现并处理灾堆恢聂预案中潜在的问题,以保证灾难来临时,系统能顺利切换至容灾系统,保证业务的连续性.在运维过程中不容易被发现的问题:D通常存储之间的镜像会自动同步数据,但是在一个存储出现问题断开链接关系的时候,一般系统没有在前面板告警,没有亮黄灯,所以需要管理员经常检
12、查系统的状态才能及时发现问题。2)存储替换升级需要考虑系统之间的兼容性,比如存硫微码升级工作,要关注连接存储的所有主机,确认与麋作系统、主机存慵驱动程序、主机HBA卡破码,存储虚拟化设备等等的兼容性,关于兼容性风险不注意检查会留下隐患.3)规避迁移相关的风险,迁移方案的不合理或者升级替换过程中触发了其他的风险陛患,从而出现CXl嗓林加,迁移前的健康检查做的越细致,风险也会越小。6、医疗行业容灾备份系统实现难点与处理方案灾备中心故Ml处理方法故障典型3故障细分处理指族“备注“网络故障a鼠台系统与生产中心的镇路中新“启用备用短路“主中心核心网络疮痪启用备份中心7我们建议在启用容灾中心之前评估故障情
13、况.如果可以在比较%时间(比如4个小时)之内恢复.则一般不建议启用容灾中心主机硬件故主中心单机部件故障ClusterVJ*jP主中心双机收防切换至容灾中心2P容灾中心故障“不影响主中心系统正常运行.但需及时恢复“P主机连簸错应用系烧可用:升级系统(保守疗法)3误“应用系统不可用2启用容灾中心-N演操作导致用户数据丢失“)如果是小数据量的丢失.而且我们有3?辑各份,则使用遗线备份进行恢复,b)如果是大数据量去失.或右没有邃Se备份我们可以使用磁带进行恢复“如果主中心和容灾中心俣持数据同步.刖容灾中心的数据系统办不可用.3数据麻故微数据块损坏、欧招文件委失“3)如果是小数据量的丢失.而且我们有3?
14、Je各份,则使用邃皿备份进行恢复;,t)如果是大数据量表失,或右没有漫袋缶份我们可以使用fit寄进行恢复a葛本同上述流程“数据库逐辑偌误或右系统表空间投坏)使用磁带进行恢复这个时候需要进行整个数足东的恢复.无法使用逻辑备份进行修复其它2人工现场处理,冗余部件极不影晌主中心系统正常运行.坏“但需及时更换一主中心和容O灾中心存储不影响主中心系统正常运行.存储系挽故之间连接故但是故障恢复后需要手工进行两边的欣据同步2容灾中心存不影晌主中心系烧正常运行.3储故城a但需及时恢复a主中心存储不可用a启用容灾中心33自然灾难。主中心不可用一a)启用同城容灾中心*jb)使用磁带进行恢复“如果同城容灾中心也遭受
15、破坏,我们可以启用异地容灾中心“7、总结医院的同城灾备中心建成后可以应对设备的硬件故獐(包括遗辑故獐和物理故障),生产机房火灾、漏水等突发情况,不会造成数据的损失,业务数据能够定时备份,可以在灾难来临时从备份点恢豆,故障发生时容灾系统能够接管应用对外提供服务.医院建设同城灾备中心后实现了以下方面的业务提升:1)由于生产中心及同城灾备中心数据的一致性,因此灾备中心在平时可将这些数据用于业务系统或应用的测试、开发及培训等,即实现了数据资源的有效利用同时可以保障数据安全提升业务连续性.2)同城灾备中心建成后服务器和存慵等资源的处理能力再利用,数据处理系疣可供测试机和开发机使用,运行数据仓库和数据挖掘等应用系统.3)对于医院的非关椎业务可以部署在同城灾备中心,这样