《电子政务云应急预案.docx》由会员分享,可在线阅读,更多相关《电子政务云应急预案.docx(26页珍藏版)》请在优知文库上搜索。
1、电子政务云应急预案第1章总则1.l编写目的为了加强电子政务云平台运维团队收到用户报障或巡检发现异常后的处理应急机制,特制定本预案,主要包括以下内容:1 .明确应急预案的触发机制。2 .完善应急处理流程,使得流程具有可执行性和高效性。3 .将流程中定义的岗位明确到人,未来人员发生变化时,同步更新本预案。4 .定义各种预案发生时的处理措施;5 2适用范围本应急流程适用于电子政务云平台环境的安全设备、网络设备、存储设备、主机设备、机房设施、电力供应等。6 2章应急处理流程7 .1原则出现应急事件原则上都应采取上报-处理-反馈方式。8 .2触发条件出现以下情况则触发应急预案:一级故障:云平台发生故障导
2、致业务系统业务中断、数据丢失。一级故障包括以下内容:云平台发生故障导致业务系统业务中断、数据丢失。云平台与电子政务网之间的网络出现中断。某个面向公众服务的业务系统出现业务中断或数据丢失。二级故障:云平台故障发生,但未影响到业务运作;或者导致数据丢失,但是可以恢复、不会影响到业务运作的故障,并明确了完成时间的事件或故障。二级故障包括以下内容:云平台出现故障,但不影响业务系统运行,不影响业务系统数据。某个面向部分用户的业务系统在业务高峰期出现业务中断。某个面向单位内部的系统出现业务中断。三级故障:对业务运行影响微弱,或者不存在影响,同时遵循一般流程可处理的事故。三级故障包括以下内容:某个面向部分用
3、户的业务系统在非业务高峰期出现业务中断。某个系统出现部分用户无法访问的情况。4)系统和网络资源使用异常云平台主机系统资源使用情况异常:云平台主机CPlJ超过70%,并且无法通过调配降低资源使用率或者单台物理服务器所承载的虚拟服务器个数超出承载虚拟机的最大个数(小型40/标准30/大型20)后并且无法通过调配降低资源使用率;云存储资源使用情况异常:当存储的剩余存储容量低于10%或者当单台存储设备在24小时内(以每日8时起计)累计30分钟的存储实际负载IOPS和存储最大负载IOPS的比例超出存储最大利用率75%时网络资源(链路带宽)使用情况异常:云平台到信息化服务器中心之间的带宽使用率超过端口速率
4、的70%时。发生安全事件因计算机病毒感染、非法入侵等导致业务中断、系统宕机、网络瘫痪等情况。因爆炸、火灾、雷击、地震、台风等外力因素导致网络系统损毁,造成业务中断、系统宕机、网络瘫痪等情况。注:当运维团队经过判断,满足以上情况时,即启动应急预案。其中一级、二级、三级故障的最终定级将由信息化服务中心决定。2.3应急组织架构应急组织架构包括应急领导小组和应急工程师。应急领导小组包括电信应急领导小组和信息化服务中心应急领导小组。电信应急领导小组由项目总监领导,由IDC运维总监、云平台运维总监、技术总监、业务总监共同承担。应急工程师包括IDC工程师、存储/备份/系统工程师、网络/安全工程师、硬件工程师
5、、云平台工程师、客服工程师。2.4应急处理流程2.4.1故障处理流程电子政务云平台一旦出现上述故障情况则触发应急预案,应急预窠按照以下流程进行处理流程流程说明1 .委办局用户拨打7*24小时报障电话进行报障:2 .客服工程师接收报障,做故障记录和分析(工作时间5分钟内响应,非工作时间0.5小时内响应)3 .属于一级、二级、三级事故,需立即上报运维主管。运维主管上报运维总监/项目总监,启动应急流程。4 .故障处理要求5 一级事故1小时解决6 二级事故2小时解决n其他事故和用户协商解决5 .客服工程师向用户反馈处理结果n一级事故每15分钟反馈1次n二级事故每30分钟反馈1次n其他事故每天至少反馈2
6、次6 .属于一级、二级、三级事故,运维总监需立即上报市信息化服务中心接口人。并进行故障逐级升级通报。7 .运维总监向市信息化服务中心接口人反馈处理结果n一级事故每15分钟反馈1次n二级事故每30分钟反馈1次n三级事故每天至少反馈2次8.一级、二级、三级事故需提交故障处理报告。2.4.2资源使用异常处理流程当云平台巡检发现资源使用满足上述异常时则触发应急预案,应急预案按照以下流程进行处理流程流程说明L运维工程师巡检或日常维护发现资源使用异常,上报运维总监2 .运维总监判断异常是否满足应急预案触发条件3 .运维总监上报项目总监,提交采购需求4 .项目总监核实采购信息,发起采购5 .运维总监向中心申
7、请资源扩容6 .中心同意后进行资源扩容。2.4.3安全事件处理流程安全事件还需同时通告市信安办总值班2.5应急通报机制2.5.1故障分级通知机制根据以上的故障分级以及故障影响范围,云平台运维团队将根据下表进行通平台级部分客户级单客户级一级故障电信高层领导市信息化服务中心受影响的客户电信高层领导市信息化服务中心受影响的客户二级故障市信息化服务中心受影响的客户市信息化服务中心受影响的客户三级故障市信息化服务中心受影响的客户市信息化服务中心受影响的客户一安全事件市信息化服务中心受影响的客户市信安办总值班市信息化服务中心受影响的客户市信安办总值班市信息化服务中心受影响的客户市信安办总值班通告人员清单:
8、安全事件还需同时通告市信安办总值班。通告方式:短信、微信通告通告人:运维总监通告时间:故障发生并判定影响范围后立即执行。2. 5.2故障升级通报流程当发生应急事件时,将采取如下的故障通报升级矩阵:注:下列升级通报方式均为电话通报。左边XXXX的人员的每一级人员对应右边信息化服务中心的人员做直接电话通报。其中第一级两边各有A/B角色人员,当A角不能汇报时由B角进行汇报。安全事件还需同时通告市信安办总值班。2.5.3资源使用异常通报机制当出现资源使用异常触发应急处理时,应采用如下通报机制:通告人员清单:通告方式:运营周报(邮件)、扩容申请(邮件)、设备硬件更换(邮件)通告人:运维总监通告时间:如果
9、资源异常情况可能会影响现有系统,则立即汇报。如果资源异常只是影响后续用户的业务需求,则在运营周报(每周一次)体现资源使用量和扩容计划,扩容申请体现具体扩容的时间。以下清单为电信应急小组成员清单:第3章重要环境介绍3. 网络环境4. 1.1骨干拓扑图当前两台防火墙部署,锐捷防火墙RG-WALL-A上连政务外网和政务内网的主用链路,锐捷防火墙RG-WALL-B上连政务外网和政务内网的备份链路。正常情况的业务流量:5. 1.2维保设备列表6. 2存储环境7. 2.1FC-SAN8. 2.2IP-SAN9. 2.3光纤交换机10. 2.4维保设备列表3. 3安全设备1)防火墙云平台和电子政务外网之间主
10、干链路上部署了两台锐捷的防火墙,用于保护云平台的网络安全。2)入侵防御系统电子政务云平台有2台锐捷的入侵防护设备部署在网络边界,作为防火墙后第二道关卡,部署防火墙后面。可对经由电子政务中心的交互流量进行流量清洗,清除流量中涵盖的具有攻击行为的流量。3)入侵检测系统电子政务云平台核心交换机旁挂锐捷的入侵检测系统,对数据中心各服务区之间和各用户访问数据中心的流量进行对应的安全防护。4)流量监控流量控制设备在汇聚层交换机和防火墙之间,对电子政务云平台内外部的交互流量进行控制。5)漏洞扫描系统在电子政务云平台内部的汇聚层交换机上旁挂启明星辰天镜脆弱性扫描与管理系统对整个云平台内部的服务器进行漏洞扫描。
11、6)防病毒网关电子政务云平台核心交换机旁挂趋势网络病毒墙-36Ooi设备,对所有经由政务网外围和云平台之间的通讯进行病毒防护。7)网络审计电子政务云平台核心交换机旁挂锐捷的网络安全审计设备,对网络中的事件以及设备信息进行详细的审计。审计颗粒度为用户级别。对全员的上网行为进行相应的审计。第4章应急预案具体实施方案3.1 网络故障应急处理实施当客户报障发现用户资源资源无法访问,按照以下步骤进行排查。上述故障判断中,满足LLL2和1.1.2时则判断是平台网络故障,需要启用应急预案。其他为单用户故障,则作为日常故障处理。当巡检发现到中心的网络无法访问,按照以下步骤进行排查。上述故障判断中,满足LLl.
12、2和1.1.2时则判断是平台网络故障,需要启用应急预案。3.1.1 通过Ping/telnet业务端口测试(运维人员)1 .登记客户报障主机IP(如:10.126.192.254)2 .通过运维工作机去ping该主机是否能够通信/telnet端口是否可达。如果出现可以Ping通但业务不通,如下图所示:则首先检查云平台的安全组规则是否开放了用户的端口。如果云平台的安全组已经开通,则判断是用户把业务关了或者主机里起了防火墙,联系用户进行处理。如果出现不能Ping通主机,则执行4.L2步骤如果可以Pirlg通,业务端口也正常,则执行4.L3步骤4.L2登陆BCC查看实例是否正常(运维人员)登陆BCC
13、平台筛选实例,然后点击远程连接登陆进去实例看能否操作如果不可以操作,则说明实例死机,需要联系客户并重启实例如果可以操作,实例网卡配置可能被修改/网卡被禁用/获取不了网络地址D需要联系客户,登录实例检查,重新获取IP2)登陆实例vim/etc/sysconfig/network-scricp/ifcfg-ethO修改配置文件并重启network服务4.1. 3通过ping/telnet防火墙端口测试(运维人员)通过运维工作机/运维监控机去ping/tracert查看到防火墙端口是否正常访问。正常路径:第一跳为网关地址;第二跳为防火墙地址;如下图所示正确访问路径如下:如果出现到防火墙的路由正常,则
14、执行4.1.4步骤如果出现到防火墙的路由不正常,则执行4.1.7步骤4.1.4通过ping/telnet信息化服务中心地址测试(运维人员)通过运维监控机去ping/tracert查看到信息化服务中心的地址是否正常访问。如果访问10.192.2.253(互联网接入网)访问正常,则说明互联网接入网网络没有问题,通知用户检查到信息化服务器中心的网络;如果出现访问异常,则说明防火墙到中心的互联网接入网链路中断,则执行4.1.5.如果访问10.64.2.253(业务专网)访问正常,则说明业务专网没有问题,通知用户检查到信息化服务器中心的网络,如果出现访问异常,则说明防火墙到中心的业务专网链路中断,则执行4.1