《ITSS问题管理程序.docx》由会员分享,可在线阅读,更多相关《ITSS问题管理程序.docx(13页珍藏版)》请在优知文库上搜索。
1、一、目的问题管理的目标如下:1 .降低由问题引起的事件对业务的影响2 .被动性问题管理:对历史事件进行分析,找出其根本原因,并提出解决措施或纠正建议方案3 .主动性问题管理:通过评估分析或隐患排查等方式,找出支撑业务系统运作的基础设施、IT系统中的薄弱环节,并采取措施来防止或减少由于该问题导致的事件的发生。二、范围适用于运维服务过程中通过对问题原因的识别、分析、管理直至关闭,使得对业务影响最小化的服务管理活动。本过程中所指的问题是指引发一个或多个事件的未知因素。问题通常具有如下特征:1 .一组具有一定关系的已结束的事件;2 .没有解决方案的事件。问题的根本原因找出后即成为已知错误;许多事件往往
2、是由一个问题引起的。三、问题概念问题应区别于事件,问题是共通性事件的引申,通过主动性分析和被动性管理,来发现故障的根源并进行解决。四、角色和职责1 .项目经理1 .确定并协调必要资源来处理所有(潜在)影响服务级别的所有类型问题,最小化问题的负面影响;2 .领导问题管理小组,确保员工的积极性、技能水平和绩效表现;3 .发现造成问题的可能原因,将问题分派给问题分析员(二线工程师);4 .跟踪问题解决的过程及结果,必要时进行升级以及问题升级后的协调工作;5 .将关键问题的解决状态及时地通报给相应的人员和管理层,必要时与客户方沟通确认解决方案;6 .确保制定清晰有效的工作流程和准则;7 .确保所有相关
3、人员都足够程度地引入到问题管理的流程中;8 .负责对问题管理流程的有效性和效率进行监控,并提供问题服务报告在需要的时候做出改进;9 .当问题分析员不能查明问题根源时,及时协调其他资源进行问题的分析定位。2 .问题分析员1 .问题分析员通常由技术工程师兼任;2 .接受来自项目经理分派或主动发现的问题;3 .定期回顾事件,并对事件趋势进行分析;4 .基于影响度/优先级和分类代码执行问题分析,在规定的时间范围内调查可能的事件根本原因,测试解决方案,同时确保问题得以解决;5 .协调变更管理功能,实施解决方案;6 .不但使事件发生时把它的影响降到最小,还应根除事件的根本原因从而防止事件的再次发生;7 .
4、利用现有IT环境分析历史数据来改善IT系统和工作方法从而避免潜在问题的发生;8 .在必要时修正事件或问题的影响度和分类编码;9 .在服务中断时,尽快提供临时解决方案,帮助客户尽快恢复正常工作状态;10 .提供问题的正确状态、进展和历史信息;3 .问题处理员1 .问题处理员通常由技术工程师或服务工程师(在技术工程师的指导下)兼任;2 .在服务中断时,尽快根据临时解决方案,帮助客户尽快恢复正常工作状态;3 .按照问题解决方案解决问题,并记录实施过程。五、问题处理过程1.问题处理概要流程从问题的生命周期出发,将问题管理过程分解为以下5个过程,形成问题管理过程的概要过程。对该5个过程所包含的活动,将在
5、后续的章节中做进一步的细化和说明。图表1是问题处理概要流程图。1 .问题收集和记录收集问题和记录问题并设定问题优先级、分类等;2 .问题的识别和分派对问题进行识别,确认问题,并将问题安排给合适的问题分析员进行问题分析;3 .问题调查与分析调查分析问题的根本原因,并根据问题分析的根本原因,提供问题解决方案或变通措施;4 .问题解决根据问题分析的结果和问题解决方案对问题处理;5 .问题实施评估对问题实施后的效果进行评估;如果问题得到了解决,则遵循问题关闭过程结束该问题。何坦请求人UIk丹何SS分析外HKttWltftfVn3* 左*W* 1卜JeU0xtBVX*1&轼9图表12.问题收集和记录问题
6、收集和记录过程是对如何收集和记录问题所进行具体的描述。问题的来源如下:1 .事件升级,没有根本解决的且二次发生的事件;2 .事件经理审核事件报告时,认为根本原因没有得到识别或解决的事件;3 .事件经理通过主动式分析(如事件发生的趋势),认为有必要作为问题进行分析的异常现象;4 .变更失败后,可能需要生成一个问题进入后续的解决过程。问题登记单记录的基本信息应包括:1 .问题请求人;2 .问题请求日期;3 .问题分类;4 .紧急程度;5 .问题影响度6 .问题优先级7 .问题项目类型;8 .问题标题;9 .问题描述;10 .关联资产;11 .上传附件。3.问题的识别和分派问题分类和分派过程是项目经
7、理识别和安排相应的问题分析员以进行处理的过程,参见图表2问题识别和分派流程图。问题识别与分派问,求人图表2确认问题信息项目经理收到问题通知后,应与问题请求人进行沟通,确定问题性质,以安排合理的资源对问题进行处理,并完善问题信息。进行关联项目经理判断此问题是否与其他问题相关,如果相关,则进行问题关联,并且更新问题相关信息。需要记录信息包括:1 .关联问题标题;2 .关联流程;3 .当前环节;4 .当前处理人;5 .关联方式。分派问题项目经理根据设置的问题分类和优先级,协调空闲的问题分析员进行处理,并进行派单。为避免问题派单后被退单以及派单后问题分析专家未能及时获得派单信息(如在开会或不在座位),
8、建议:1 .当前每次在问题的分派前电话通知被分派人员,同时发送短信和邮件;2 .如果发现人员安排紧张时,应优先安排优先级高的问题。派单后应在系统中记录的信息包括:1 .派单时间;2 .被派单人;3 .问题的状态。接受分配问题分析员接受到派单后,应立即着手对问题进行调查和分析。1 .如果问题派单错误,则立即告知问题经理重新派单,并阐述理由。2 .如果接受该派单,则调整问题状态。受单时应在系统中记录的信息包括:1 .受单人;2 .受单时间;3 .问题状态(已分派)。4 .问题调查与分析问题调查和分析过程是问题分析员接受派单,对问题进行分析和诊断的过程,参见下图表3问题调查与分析流程图。81111
9、j0nnvrt分析诊断问题问题分析员接受到派单后,应立即着手对问题进行调查和分析,提供问题临时解决方案。确认问题根源问题分析员对问题进行分析和诊断,找出问题可能存在的原因。如果不能找到问题根源,则转入项目经理协调资源分析诊断问题。协调资源分析诊断问题项目经理协调专家对问题进行会诊,找出问题可能存在的原因并转入记录问题根源。记录问题根源问题分析员对确认的问题的原因进行记录,并制定问题解决方案转入(3.L4)问题解决。确认根本原因阶段应记录的信息包括:1 .问题原因描述;2 .问题状态(处理中)。5 .问题实施评估问题实施评估过程是问题得到解决后,应该遵循问题实施评估的具体过程,图表4为问题实施评
10、估流程图验证问题解决结果在问题的解决方案得到实施后,问题请求人对实施结果进行验证,以确认问题得到妥善解决。如果问题请求人判断问题是正常解决,更新知识库。如果问题是通过变通方法解决,问题请求人判断是否接受,否则重新分配问题。关闭工单关闭后的问题即为“已知错误”,在问题被关闭的同时将问题以及相应的解决方案应用到事件管理流程当中。该阶段应该记录的信息包括:1 .问题关闭时间;2 .问题关闭状态(已关闭)。6 .问题管理回顾组织回顾会议项目经理每季度组织相关人员召开问题流程管理回顾会议一问题预防及处理联席会议。参会人员包括:项目经理、问题分析员以及其他相关人员。回顾内容问题预防及处理联席会议上,回顾的主要内容包括:1 .重大问题解决的过程及效果;2 .重大问题解决方案的有效性;3 .重大问题解决方案是临时措施还是永久的解决方案,如果是永久的解决方案,则添加到知识库中;4 .当前问题管理流程,使得流程评审小组清晰的了解当前流程的运转情况,结合实际需求,评审该流程是否需要改进。如果需要改进,提出问题管理流程改进建议,形成流程改进建议文档,提交至服务改进计划流程。回顾报告问题预防及处理联席会议结束后,所回顾内容形成重大问题回顾单,报告给相关的领导。六、问题管理过程的KPl为保证问题管理过程更好的得到执行,定义以下关键指标。问题管理经理应每季度对所定义的指标进行统计和分析。问题解决成功率290%