《事故恢复演练方案-模板.docx》由会员分享,可在线阅读,更多相关《事故恢复演练方案-模板.docx(12页珍藏版)》请在优知文库上搜索。
1、事故恢复演练方案目录1信息系统灾难恢复演练概述1.1 灾难的定义31.2 灾难典型案例31.3 灾难恢复演练的含义和目标62 灾难恢复的管理82.1 灾难恢复管理的目标82.2 灾难恢复对组织机构的管理要求82.3 灾难恢复的外部协助83 灾难恢复演练策略规划93.1 灾难恢复资源要素93.2 灾难恢复演练流程101信息系统灾难恢复演练概述11灾难的定义由于人为或自然的原因,造成信息系统运行严重故障或瘫痪,使信息系统支持的业务功能停顿或服务水平不可接受、达到特定的时间的突发性事件。这个定义不仅给出了灾难的范围,也给出了灾难的判断标准。灾难不只包括自然灾难(地震、海啸等),也包括人为的灾难(如恐
2、怖袭击、误操作、病毒等)。1.2 灾难典型案例2(X)1年9月11日,美国世贸中心双子大厦遭受了谁也无法预料的恐怖打击。根据GartnerGroup的相关调查统计,在这两栋大楼中,共有1200家公司,其中仅400家公司执行了他们的灾难恢复计划,而大多数公司因为没有建立灾难恢复系统,数据损毁、丢失,导致业务无法恢复,最后只能宣布倒闭。除了“9.11”,在2001年发生的主要灾难事件还包括:2001年2月,Delta航空公司下属的大西洋东南航空由于计算机故障导致400多个航班被取消和延误;2001年6月,热带风暴淹没了得克萨斯州医疗中心,关闭了54家医疗机构;2001年11月,由于对炭疽热的恐慌,
3、临时关闭了帝国蓝十字/蓝盾数据中心;据统计,美国年均处理灾难性事件40余宗。AOL(美国在线),在1996年8月,由于维护工作中的人为错误造成24小时停机,直接损失达300500万美元,股票价格相对于前一天下降26%o2003年,当AT&T无线试图对SiebeI客户关系管理(CRM)软件进行升级的时候,原定一个周末就能完成的项目演变为一场历时六个星期的灾难。这次CRM软件的升级使AT&T无线损失了1亿多美元,仅增加的用户欠款、员工加班费和承包商的佣金就高达7500万美元。此外,技术故障也导致该公司2003年第四季度的新增用户数急降82%o2005年,某国际著名银行丢失了390万客户信息,造成了
4、全世界广泛流传的“数据门事件”。我们回过头来看一下国内发生的一些典型案例:2003年7月4日,首都机场离港系统因发生设备故障而瘫痪93分钟,无法为旅客办理登机手续。共有71个出港航班因此发生延误,至少3000名旅客无法准时登机。(摘自京华时报、中华网)2005年5月1日,黄金周的第一天。下午2点多钟,北京市铁路局的电脑售票系统出现临时性故障,致使全市各火车站的售票窗口、代售网点的售票工作全部处于瘫痪状态,时间长达一个多小时。而很多打算当日购票外出的乘客也因此被迫改变了离京日程。直到下午3点50分左右,瘫痪的票务网络系统才开始恢复正常。售票系统出现问题的过程中,至少有近两千名乘客停滞在火车站,北
5、京站公安段为此出动了300余名警力在现场维持秩序,以防发生拥挤等突发事件。(摘自计算机世界、北京青年报、新华网)2005年6月9日,北京某证券股票交易系统出现故障,迫使股民望“红”兴叹。(摘自经济观察报、京华时报、天极网)2005年以来,国内个别银行数据运营中心的计算机系统相继发生故障,造成生产系统停机,影响到部分省分行、总行营业部、机构成员的业务、交易中断。(摘自金融时报)2(X)6年4月20日,中国银联网络长时间全面瘫痪,银行卡交易大面积停止,据估计涉及全球至少34万家商户以及6万台ATM机,很多人不能取款转账,不能刷卡消费。(摘自金融时报)众多的灾难过后,留给人们的思考就是如何减少损失、
6、如何有效地防范风险、如何使业务不间断等等。例如摩根斯坦利公司、纽约交易所(NYBOT)就是很好的案例。在“9.11”事发几个小时后,摩根斯坦利公司便宣布:全球营业部可以在第二天照常工作。这主要归功于该公司建立的数据备份和远程容灾系统,它们保护了公司的重要数据,在关键时刻挽救了摩根斯坦利,同时也在一定程度上挽救了全球的金融行业。NYBOT的前身CSCF曾经历了世贸中心车库爆炸案(1993年),从此吸取教训而与灾难恢复服务商制定了BCP计戈J,这个计划坚持演练了10年。当“911”事件发生而导致NYBC)T大楼被毁时,几小时后就在“长岛”开始恢复交易,这样短的时间内NYBoT恢复了它在异地的运营,
7、因为它很早就制定了BCP计划,并在灾难发生时发挥了重要作用,NYBoT劫后逢生的关键是BCP计划的策划和坚持。经历过灾难的洗礼,一大批公司因为重要数据的毁灭而无法恢复营业,与此同时,有的公司因建立、执行了科学有效的信息系统灾难恢复机制,从而迅速恢复了业务,得到绝处逢生的机会。这些活生生的案例给我们带来了深刻的启示:重要信息系统必须构建有效的灾难恢复系统并建立业务连续性机制。1.3 灾难恢复演练的含义和目标灾难恢复是指将信息系统从灾难造成的故障或瘫痪状态恢复到可正常运行状态,并将其支持的业务功能从灾难造成的不正常状态恢复到可接受状态,而设计的灾备演练的活动和流程。它的目的是减轻灾难对单位和社会带
8、来的不良影响,保证信息系统所支持的关键业务功能在灾难发生后能及时恢复和继续运作。灾备演练是验证灾难发生时,业务系统能否有效联动切换的极为重要的手段。没有灾备的演练计划和手段,往往无法预知灾难发生时生产中心和灾备中心的数据一致性,也无法预知灾备中心是否具有了业务接管的一切必要条件。以往,由于一些企业采用的容灾技术不熟悉,出现了一些企业在故障发生时,仍然无法启动后援系统进行业务的接管的现象,这些企业不得不仍然采用传统的备份恢复方式进行耗时的数据恢复,不仅出现了大量的数据丢失而且,动辄数十小时的业务停顿,也使得灾备系统的设计者狼狈不堪,教训十分深刻。因此,选择有效的灾备技术手段的同时一,决不能忽略灾
9、备演练的技术手段的提供,制定灾备系统的演练和测试计划。因此灾备的另一目的是为了让灾难恢复队伍和有关的人员熟悉灾难恢复计划。灾备的演练计划有以下几种方式:A计划性测试/演练灾难恢复计划要求建立业务连续性管理团队,不仅涉及IT部门,而且关联众多业务部门,为减少演练对于生产的影响,可以将恢复计划细化到很小的单位或者模块,逐个应用进行接管验证。当模块都成功通过测试后,测试的范围可以扩充到更多的模块。B突发演练在容灾备份系统全面完成并且制定了全面的恢复计划后,可以在进行了一定备份的情况下安排突发性的测试。当然,研发部和运维部需要确保业务和项目不会因为突发性测试造成不可接受的损失和业务中断。演练对于提高团
10、队的恢复经验和协作能力以及确保灾难恢复计划的可行性是至关重要的。所有的演练结果都要进行评估、记录、并且生成到容灾备份系统流程里。所制定的灾难恢复预案,应按照由模拟到实际、从易到难、从局部到整体的原则进行测试和演练,及时总结评估,完善灾难恢复预案,通过演练使得相关人员熟练灾难恢复操作及流程。像银行和保险机构灾难恢复预案每年至少演练一次,可以根据自己的实际情况安排自己的演练计划,演练类型可以是模拟演练、实战演练、部分演练和全面演练。2灾难恢复的管理2.1 灾难恢复管理的目标灾难恢复建设是一个系统性工程,涉及到单位的组织架构、资源投入、建设与维护、流程制度变更及外部协作等多个领域,需要评估灾难恢复规
11、划过程的风险、筹备所需资源、确定详细任务及时间表、监督和管理规划活动、跟踪和报告任务进展以及进行问题管理和变更管理。灾难恢复建设管理的目标是在资源有限的前提下根据单位的业务需求进行灾难恢复建设,减小灾难给单位带来的损失,保障业务的连续运作。2.2 灾难恢复对组织机构的管理要求当事故或灾难发生时,有关人员要准备好第一时间做出响应。灾难恢复组织机构是对灾难事件做出相应反应的核心力量。灾难恢复的组织机构由管理、业务、技术和行政后勤等人员组成,灾难恢复的组织机构应强调信息畅通,协调合作,高效决策,有效执行。在灾难恢复组织机构的框架内信息畅通是第一要务,在灾难发生时,迅速可靠的将必要的讯息通知相关人员,
12、进行人员的召集和决策,是灾难恢复机构的首要任务。下表是组织机构成员联系电话:姓名部门电话2.3 灾难恢复的外部协助任何单位都不是独立于社会之外的存在,在遭受灾难袭击时及时获得外部的理解和援助,加强对外合作和沟通可以尽量减少或避免灾难事件带来的负面影响和损失。灾难恢复的外部协助可能涉及如下内容:1 .同业机构间合作同业灾难恢复机构应加强与业务密切相关的同业机构的协调联系,相互合作,分享经验,共同评估可能面临的风险因素,共同制定灾难恢复策略,提高行业整体风险防范和灾难恢复能力。2 .厂商与客户合作单位应与设备及服务提供商、通讯和电力部门等保持联络和协作,以确保在灾难发生时能及时通报准确情况并获得适
13、当支持,确保灾难恢复的顺利进行。姓名部门电话3 .主管机构协调识别支持灾难恢复和业务连续性的机构并与之进行协调,识别和建立与紧急事件管理机构的联络方式,应与相关管理部门保持联络和良好关系,以确保在灾难发生时能及时通报准确情况并获得适当支持。3灾难恢复演练策略规划3.1 灾难恢复资源要素支持灾难恢复各个等级所需的资源(以下简称“灾难恢复资源“)可分为如下4个要素:数据备份系统:一般由数据备份的硬件(备份服务器)、人工备和数据备份介质(光盘、机械硬盘等)组成;备用数据处理系统:指备用的计算机(准备还原到的计算机)、外围设备和软件(如果准备还原到虚拟机需要准备VmWare);备用网络系统:用来访问备
14、用数据处理系统的网络,包含备用网络通信设备和备用数据通信线路;备用基础设施:灾难恢复所需的、支持灾难备份系统运行的建筑、设备和组织,包括介质的场外存放场所、备用的机房及灾难恢复工作辅助设施,以及容许灾难恢复人员连续停留的生活设施;3.2 灾难恢复演练流程灾难恢复的基本流程包括:主机的灾难恢复、备份服务器的灾难恢复和企业数据的灾难恢复。3.2.1 主机的灾难恢复策略情况故障现象解决措施1主机数据磁盘故障(非系统盘)若数据盘使用了RAID1、RAID5等技术,则应该可直接热替换硬盘;若数据盘已不能访问,则需先修好物理盘,然后从备份介质恢复数据;2系统盘物理损坏替换系统盘;则可自通过:备份系统的灾难
15、恢复功能恢复操作系统;3操作系统不能启动直接通过备份系统的灾难恢复功能恢复操作系统;4磁盘上数据损坏(人为失误、病毒或黑客攻击)通过备份介质上的数据备份恢复数据;5数据中心灾难所谓数据中心灾难,是指一些特殊情况发生时,数据中心的主机系统的存放在磁盘上的数据,以及备份带库中的备份介质上的数据均遭损坏。此时,若没有很好的容灾解决方法,就可能导致严重的后果;一旦灾难发生,即使磁带库中的备份介质损坏,还可用异地保险库中的备份介质通过远程进行恢复;3.2.2 备份服务器的灾难恢复策略当备份服务器发生灾难时,传统的手工恢复方式流程如下:1、 重新安装操作系统、安装服务包、驱动程序和系统更新等。2、 重新安装VisualSVNServer3、 加载备份介质;重新编录;恢复数据手工灾难恢复方法在技术上是复杂的,并需要长时间才能完成。如果操作不正确,这个过程还得包含一系列可能阻碍系统恢复得行为。如此一来,管理员不得不从头开始重新运作手工恢复过程。目前使用VisualSVNServer进行灾难恢复,下面章节会有详细介绍。3.2.3 企业数据的灾难恢复策略要理解在公司内使用的每一个部门和网络,以及能够快速有效地进行数据恢复的最重要的系统。