《运维服务交付工作制度和规范.docx》由会员分享,可在线阅读,更多相关《运维服务交付工作制度和规范.docx(12页珍藏版)》请在优知文库上搜索。
1、服务交付工作流程和规范234567810错误!未定义书签。错误!未定义书签。一、项目交付过程管理1. 项目启动阶段22. 项目实施阶段23. 项目收尾阶段3二、项目交付活动管理4配普管理4服务持续雇善通二二二二二二二二二二二二二二二二二二二二二二二二二二二二二二:5突发事件管理5问题管理7变更管理8巡检管理补丁管理服务绩效管理一、项目交付过程管理从承接服务项目开始,项目交付过程分为:项目启动、项目实施、项目收尾三个主要阶段。项目启动阶段工作应在服务起始日开始的3周内完成,主要活动包括成立项目维护小组、制定项目实施计划,召开用户项目启动会,制定应急方案和维护方案,启动用户IT服务持续性管理等;项
2、目实施阶段是服务交付的主体阶段,包括定期巡检、突发事件处理、增值服务实施、补丁管理及阶段总结等主要活动;项目收尾阶段开始于合同规定服务时间即将结束的前2周,主要工作包括服务资料整理、年底总结编写、安排年度总结会议,向客户移交一年的工作,争取续签服务合同等。1.项目启动阶段项目启动阶段又分为三个子阶段:项目信息收集阶段、项目计划阶段、维护方案整理阶段,每一阶段由若干活动组成,项目启动阶段需在合同启动后3周内完成。项目信息收集子阶段:项目自正式交付后,项目经理根据交付内容组建项目维护小组,收集项目整体信息。项目计划子阶段:项目经理负责安排,项目组责任工程师根据项目维护服务内容,编写项目需求计划和项
3、目实施计划,报业主单位审核。维护方案整理子阶段:项目经理按项目执行计划发起首次巡检,服务工程,项目经理用户现场进行巡检,收集设备运行状况和配置信息,对项目配置进行管理,并讨论项目存在的风险、应对措施等,制定应急方案及维护方案,经业主单位审核通过后项目进入实施阶段。2 .项目实施阶段项目实施阶段是服务交付主体,包括定期巡检、突发事件处理、增值服务实施、补丁服务及其它维护服务等活动。又分为服务执行和阶段总结两个子阶段。服务执行子阶段: 定期巡检:项目经理根据项目执行计划安排巡检服务; 突发事件:服务台、项目经理或驻场服务工程师为突发事件主要响应接口,根据事件级别进行事件处理,事件的负责人会随事件处
4、理所花的时间相应升级,以保证事件在SLA范围内得到处理; 增值服务:根据合同要求,向客户提供如性能调优、机房搬迁、咨询等服务,由于这类服务工作量较大,要求也较高,因此要求有该相应的实施方案; 补丁管理:根据厂商补丁最新信息,对用户系统进行补丁升级分析风险评估,制定补丁升级计划,实施补丁升级服务; 其它服务:在项目启动阶段,IT持续性管理活动完成应急方案的制定。在项目实施阶段,要定期对应急方案进行测试、演练,保证在灾难发生时,应急方案可以得到快速实施。阶段总结子阶段:根据合同要求和项目执行计划,项目经理定期做阶段总结。阶段总结需要发给用户审核,如用户认可,则可按收款计划,向用户提出收款申请,协助
5、销售收款。当服务期还有2-3周即将结束时,项目进入收尾阶段。3 .项目收尾阶段项目收尾工作开始于合同规定服务时间即将结束前2-3周,分外部结项和内部结项两个子阶段。外部结项子阶段:此阶段起始于合同维护期满前2-3周,包括服务资料整理、年底总结编写、安排年度总结会议、收尾款、支付分包尾款、向客户移交维护期内的工作,争取续签服务合同。内部结项子阶段:此阶段起始于项目所有相关成本已结清,包括项目经理整理项目实施成本(含技术和项目管理)、评估分包质量,整理备件实际使用情况,销售完成项目结项之商务流程,交付接口通报项目结项信息等。二、项目交付活动管理1 .配置管理配置管理负责记录项目有关IT服务的基础信
6、息,包括项目中服务范围内的设备系统、架构、应用、服务等配置项信息及各配置项之间的关系,并记录其变更情况,监控IT组件状态,确保服务支持人员可以清楚地了解项目具体配置信息。配置管理的目标:记录服务项目中所包含的IT设备基础信息和配置信息;1 为其它服务管理流程提供服务项目有关IT基础架构配置的准确信息。配置管理的范围目前服务交付中心定义维保类型项目配置管理的范围:1)、项目相关软硬件设备的基础信息。配置管理员负责根据项目具体情况确定配置项及配置项属性,并在技术服务平台配置管理中进行定制。2)、系统的配置信息(包括系统架构)。3)、相关服务文档。包括:SLA协议书、各产品配置信息、拓扑架构、维护方
7、案(包括应急方案);文档可以存放在不同地点,但它们的版本号、发布日期、作者、存放地点等相关信息存放在CMDB中。配置项的更新1)、配置管理员负责建立该项目的配置管理数据库。定期检查配置项以确保它的存在性和合理性,并更新配置管理数据库。2)、在项目启动阶段,第一次巡检工程师要负责收集项目基本信息和系统配置信息,配置信息包括系统拓扑结构、设备配置参数、系统可用性设置。3)、在项目实施阶段,巡检、突发事件或其它服务实施后,支持工程师如发现用户系统配置项或其关系发生变化,要负责收集更新后的项目配置信息;配置管理员负责根据项目配置更新信息及时对CMDB中的配置项进行增加、修改、替换或删除活动。2 .服务
8、持续性管理服务持续性管理的目标:确保用户业务运作所需的IT基础架构和IT服务在突发事故(包括灾难)发生后的限定时间内能够得到恢复,保证用户业务的运行和服务协议SLA的达成。服务持续性管理贯串整个项目服务过程,分为四个阶段,定义目标、需求分析和规划、组织实施、运营管理四个阶段。1)、定义目标项目承接后,项目经理负责根据项目服务协议确定项目服务持续性管理目标。2)、业务影响分析和风险评估在项目启动阶段,项目经理要安排技术人员对用户系统进行一次深入的检查、分析,可以结合第一次巡检进行安排,收集用户系统完整的配置信息;同时了解系统承载的业务特性和用户对业务持续性服务要求。为了明确服务持续性管理关注的重
9、点,首先必须对用户业务由于停顿而造成的影响进行分析。然后,对用户IT系统与管理存在的薄弱环节和潜在的威胁进行评估。3)、制定IT服务持续性策略根据业务影响和风险分析的结果,项目经理负责制定服务持续性管理策略。制定服务持续性管理策略主要是在风险降低措施的成本和应急处理方案的选择之间进行平衡,确保以最低的成本将给用户IT服务运作的风险控制在最低可接受的水平。4)、组织和实施组织和实施服务持续性管理主要包括以下活动:组织架构安排、制定实施计划、远程工具选择和落实、设计业务快速恢复方案和程序、实施风险降低措施、进行初始测试等。3 .突发事件管理突发事件是指引起或可能引起用户业务中断或服务质量下降的活动
10、。在维保类服务项目中,突发事件主要指系统发生的各种故障或隐患。突发事件的处理强调速度,要保证及时恢复用户业务的运行,确保SLA的达成。在接到用户故障申报后,通常先由服务台或定向工程师采用电话支持、远程登录手段进行故障处理,对远程短时间内无法判断或解决不了的故障,需要安排专家以最快的速度赶赴现场进行处理。突发事件管理目标:是尽可能快地恢复服务至SLA规定的水准,有可能采取的是一些应急措施而不是永久性的解决方案。为了保证突发事件能够在合同SLA规定的范围内处理完成,在项目启动阶段,项目经理需要根据合同SLA要求组织实施用户IT服务持续性管理工作,并制定项目维护服务方案。维护服务方案应含有突发事件应
11、急处理方案内容,应急处理方案包括技术、人员、工具、流程等几个方面的应对措施。方案必须经过平台运营部长、项目组成员及责任专家讨论确认,并经过测试验证,确保故障发生时能够进行正常操作。为了将故障在客户端造成的影响降低到最低程度,需要做好危机公关处理工作。突发事件管理包括事故查明和记录、定义故障级别、启动应急处理流程、故障处理与恢复服务、跟踪和监控、结束事故处理等几个过程,并监督整个处理过程直至事件得到解决和控制。危机处理危机处理需要做好三个方面工作:1)事中沟通。在故障处理过程中,公司各层级人员对应做好与客户各层级人员的沟通,及时通报故障处理情况及我方的应对方案,使客户各层级人员及时了解情况,避免
12、客户由于不了解我方人员安排和故障处理情况而对我方产生的抱怨情绪;2)及时总结。业务恢复后,应立即启动问题管理流程,着手分析故障原因,从根本上解决故障,并消除产生故障的隐患,争取在第二天完成故障处理报告,说明故障现象、处理过程,分析故障原因及后期应对方案;3)事后安抚。事故发生后,如果用户业务受影响的时间较长,客户各层级承受的压力一定非常大,特别是用户平时与我们打交道最多的IT部门。我们要根据故障影响程度决定是否在需要与用户更高一层面进行沟通,说明故障原因、处理过程、后期将采取的一些措施等,消除用户对我方的误会,同时帮助减轻用户IT部门的压力,便于后续工作的开展。突发事件的处理结果直接决定了用户
13、对我们服务能力和服务质量的评价。要确保突发事件在SLA范围内处理完成,必须在项目启动阶段做好充分准备,在事故处理过程中严格按照流程进行处理,事故发生后要进行认真总结,并做好客户沟通等处理工作。4 .问题管理通过调查和分析用户IT基础架构的事故隐患或事故发生的根本原因,制定解决事故的方案和防止事故发生的措施,将事故发生概率或事故对用户业务影响降到最低程度的服务管理流程。问题管理的目标:将由IT基础架构中的错误引起的事故和问题对业务的影响减少到最低程度;查明事故或问题发生的根本原因,制定解决方案和防止事故再次发生的预防措施;实施主动问题管理,在事故发生之前发现和解决可能导致事故发生的问题。根据以上
14、目标,服务交付中心问题管理分为被动问题管理和主动问题管理二类:被动问题管理一问题控制问题控制管理是在问题出现后才做出的响应,因而是一种被动的问题管理。问题控制是对发现的问题进行归类、调查和分析,从而提出解决方案或应急措施的流程。问题控制的根本目的是要查明事故产生的根本原因,一旦查明事故产生的根本原因,问题就升级为知名错误。我们定义问题为那些非常严重或重复发生的事故归类为问题。问题控制流程涉及以下主要活动:1)、发现和记录问题;2)、分级与诊断;3)、评估已知错误;4)、实施变更;5)、问题解决评估;6)、问题终止。主动问题管理一健康检查主动问题管理是根据对用户IT基础架构分析,找出可能出现问题
15、的薄弱环节,在事故发生前发现和解决有关问题和知名错误,以减少事故的发生。系统健康检查主要包括三项活动:1)、信息收集根据系统产品巡检模板收集系统配置情况和运行状况。项目经理负责根据工程师收集的相关信息对CMDB进行更新。2)、趋势分析根据系统健康检查收集的信息,预测系统运作的趋势,找出系统运行的事故隐患,并评估事故隐患对用户业务的影响。趋势分析可以从以下几个方面进行: 找出IT系统中不稳定的组件,分析其原因,以便采取措施降低事故的发生; 分析已发生的事故和问题,研究其发展趋势; 通过其它方式和途经分析,比如:系统管理工具、用户反馈、用户调查。3)、制定预防措施通过趋势分析,针对系统存在的隐患制定积极措施以避免事故的发生。预防措施通常包括: 提交变更请求(RFCs); 进行客户系统使用方面教育和培训; 对内部相关服务工程师进行教育和培训。 .变更管理在可接受的风险范围内,高效地实施已获批准的对用户IT基础架构的变更。变更原因:软硬件升级、性能优化、机房搬迁、解决问题、新业务需求、新的系统配置、新产品和服务等。变更管理的目标:确保变更实施过程中使用标准的方法和步骤,尽快地实施变更,将由变更产生的实施风险降低到最低程度。在