《数据中心运维操作标准及流程.docx》由会员分享,可在线阅读,更多相关《数据中心运维操作标准及流程.docx(22页珍藏版)》请在优知文库上搜索。
1、数据中心运维操作原则及流程郑州向心力通信技术股份有限公司1机房运维管理前期准备1.1 管理目的机房基本设施运维团队应与业主管理层、IT部门、有关业务部门共同讨论拟定运维管理目的。制定目的时,应综合考虑机房所支持的应用IKJ可用性规定、机房基本设施设施的级别、容量等因素。目的宜涉及可用性目的、能效目的、可以用服务级别合同(S1.A)的形式呈现。不同应用的可用性目的的机房,可设定不同级别的机房基本设施的运维管理目的.1.2 参与数据中心建设过程机房运维团队应充足理解自己将要管理的场地基本设施。对于新建机房,应尽早参与机房基本设施的建设过程,以便将运维阶段的需求在规划、设计、建造、安装和调试等过程中
2、得到充足的考虑;同步为后期做好运维工作打下基本。1.2.1 应参与规划设计机房的规划设计是一种谨慎和严谨的过程,需要所有参与机房建设的有关方共同完毕,才干保证规划和设计的有效性、实用性等规定。其中,基本设施运维团队应提出运维规定,从运维经验、实际运维难度、提高运维可易性等方面对规划和设计过程进行配合。1.2.2 应参与有关供应商遴选机房基本设施运维团队应参与机房基本设施设备供应商选择H勺全过程,及时地理解多种产品及服务的品牌、型号、规格等核心参数,使之更能满足运维H勺规定。并就在安装、调试过程中的注意事项等提出建议,还需要对后续的设备保修等服务提出规定。1.2.3应参与建造管理机房卧J基本设施
3、运维团队应积极参与机房基本设施的建造工作,并协助做好建设项目的项目管理工作,着重关注工程建造中如材料的使用、工序、建造过程等工作,重点关注隐蔽工程的安装工艺和质量。机房基本设施运维团队应充足理解施工过程中的工艺。对于新建数据中心,从施工质量和后来运维以便性出发,尽早发现施工过程的问题,及时纠正,以便后来运维和节省后来整治成本。1.3测实验证机房基本设施投产前的测实验证是保证机房基本设施满足设计规定和运营规定的核心环节。1.3.1时间和预算机房的业主应设立测实验证专项预算,预算应涉及外部测实验证服务提供商的有关技用,以及在测实验证阶段产生的电我、水费、油费等有关费用。应制定测实验证的工期规划,以
4、更精确地预测机房基本设施交付投产的口期。1.3.2测实验证参与方项目建设管理部门可作为测实验证工作的主体责任单位:运维管理部门可作为测实验证工作的主体审核单位;第三方测试服务商可作为测实验证H勺实行单位及整体组织工作的协调单位。但运维管理部门应规定测试服务商预先提供测试方案,在运维管理部门审核后方可进行。机房基本设施运维团队可参与测实验证工作,在此过程中熟悉设施和设备,可建立有关运维技术文档库,为后期的运维工作做好准备。机房核心设备提供商及工程总包商,应积极配合测实验证工作,应在供应商合同中对此项有明确规定。1.3.3测实验证内容验证应覆盖所有核心子系统和设备应具有的功能和核心I1.勺操作程序
5、,保证满足设计规定,必要时可做故障情景模拟来检查。测实验证中发现设计或者建设阶段H勺问题,应当在报告中充足体现;可以改造IKJ部分,应规定建设单位进行改造;不能改造或临时不需改造部分,应作为风险点在运维过程中予以特别的注重,并制定有关预案。1. 3.4设施健康评估当接手已在运营的机房基本设施的运维工作前,运维团队应对设施的状况进行健康评估,理解潜在风险点,其中可以改造的部分,应当申请予以优化改造。不能改造的部分,应当作为风险点在运维中予以特别I1.勺注重,并制定有关预案。1.4 技术文档完整并精确的技术文档是后期运营、维护、维修、故障诊断、优化改造IKJ基本。运维团队在开展运维工作前,应从施工
6、单位得到场地基本设施的全套有关文档,涉及但不限于:机房的规划设计资料及竣工图纸、全套设备的清单及有关操作文档和保修保养资料、机房臼动操作系统的逻辑图及阐明文档、监控系统I1.勺点表、验收测试文档、机房所在建筑的建筑设计资料、竣工图纸。整体文档应在限定期限内进入运维管理知识库,并按照质量管理的原理和规定设定文档IKJ起草、变更、审核、批准、保存、分发等职责权限。1.5 管理边界为了明确管理责任,机房基本设施运维团队应将也许影响机房基本设施运维0时达到的外界因素整合成管理边界报告,提交业主管理层并组织研讨,形成明确的决策,制定完整的协调沟通机制及权责界线。这些因素涉及但不限于:不归木部门负责,但也
7、许对于本部门有重大影响的供电、供水、供暖、制冷、消防、安防、监控、运营商线路接入等系统。2安全管理和质管理建议2.1 人员安全机房基本设施运维团队要编制正式的机房生产环境(工作场合)的安全方针,设定严格II勺安全生产规范:并根据安全方针制定有效H勺、明确的安全筹划,来专家和培训安全原则、危险辨认、纠正缺陷和控制风险。并加强对于该部分规范的合规度的培训、考试和审核检查,以保证机房运维人员的人身安全。有关安全生产规范重要涉及: 机房生产环境安全管理规范: 机房基本设施各系统安全管理手册; 机房基本设施波及安全的应急预案: 机房基本设施管理过程波及的技术方案中的安全管理方略。机房基本设施中与电气有关
8、的工作存在着固有危险。设施运维团队应当创立一份正式电气安全筹划,以最小化所有工作人员受到电气伤害的风险,保证现场电气系统达到有关法规原则。电气安全筹划中的条款应规定电气工作人员在有资质和具有合理安全工作流程的前提下才干进行操作,并应运用防护设备和其她控制手段,如上锁挂牌设备。此筹划I1.勺创立旨在避免员工受到电击、烧伤、电弧和其她潜在电气安全隐患,同步规定其遵守法规原则。有关国家、行业规程涉及但不限于: GB26860电力安全工作规程发电厂和变电站电气部分: D1.408电业安全工作规程。2.2 物理环境安全应理解周边社会环境信息,评估潜在的安全风险并制定预案。这些信息宜涉及但不限于:周边交通
9、路况、医院、供油站、消防站、变电站、供水、供电、供气、网络通信线路等。可建立周边社会环境管理资料库。应理解机房所在地的历史自然灾害状况。涉及但不限于GB50174及T1.A-942中提到的所有评估机房选址的外部因素,并制定相应的管理预案。应建立并执行严格的机房设备、人员、车辆进出管理制度。应设立不同安全区级别(参照IS027001信息安全管理中的物理安全控制)并制定访客管理制度,用以有效管理访客。2. 3质量管理在机房基本设施运维过程中建立完善的质量管理体系,是保障以上机房基本设施运维趋于卓越H勺重要因素和手段。机房基本设施运维团队的所有核心工作应涉及如下的质量管理要素:2. 3.1质量保证过
10、程制定:程序制定;过程审核和批准;过程和程序培训。2.3.2质量控制 事件回忆; 质量检查和检查: 定期质量审核。2.3.3质量改善故障分析;经验教训:优化及创新筹划。3人员管理建议3.1 组织及人员3.1.1 组织架构机房运维团队应有清晰的组织架构,同步对各岗位有明确的岗位职责阐明并在i1.和机化维护管理系统(CMMS)中实现权责匹配,同步更新。中大型数据中心场地基本设施运维团队中除现场负责人外,可按照工作内容分设如下几种重要职能岗位: 运维巡检团队重要职贡:对基本设备设施进行巡检,担任值班工作,第一时间发现故障或问题,并作为管理程序H勺执行者。 技术管理团队重要职责:对机房基本设施提供运维
11、技术支持,解决技术问题,承当机房基本设施一般性的优化改造工程的项目管理工作,宜涉及电气、空调、弱电等系统的技术人员。 物理环境安全管理团队重要职责:对物理环境安全进行管理,进行安全巡检等工作。3.1.2人员配制机房基本设施运维人员I1.勺配备应根据运维管理目的或S1.A来拟定。中高级别的机房,可按照7X24的运营规定配备运维人员。上岗人员应具有国家规定的相应资格证书。应在运维管理程序中明确规定资质级别与操作权限的一致性。高级别以及具有一定规模H勺机房,每个班组应配备具有电力、暖通、弱电专业能力H勺运维人员,以达到“即时应急响应”的工作状态。级别相对低的机房,每个班需要至少配备一人,达到“即时报
12、警”11勺工作状态。运维团队的核心岗位应有人员备份和储藏。机房基本设施运维管理团队的核心管理人员或核心岗位人员在正常运维工作开展中应采用A、B角色配备,平常工作中应注意角色的分派和工作的配合。其他岗位人员宜建立良好I1.勺循环机制,人员可进行岗位轮换和交叉培训,使所有人员掌握全面的基本知识。3.1. 3绩效管理为了提高机房运维人员的技术技能、职业素养和倡导团队合伙精神,专业地、高效率地运营和维护机房基本设施,有必要建立人员的核心绩效指标,定期对所有人员的短期和长期绩效进行评估,奖优罚劣,推动整个运维团队技术和素质的发展和改善。3.1.4人员管理制度为了保障机房基本设施运维团队的创新性、稳定性、
13、持续性,应通过建立合理H勺人员管理制度,约束人员H勺工作态度、行为规范,提高人员I1.勺工作热情、工作效率和执行力,激发人员正面影响,使团队始终保有活力来共同努力达到服务级别合同的规定,运维团队应当建立运维人员H勺各项管理制度。这些管理制度应当重要涉及(但不限于): 平常活动管理制度; 人员安全操作制度: 运维人员基本素质养成管理制度; 安全运营奖惩制度: 节能运营奖惩制度: 技术创新奖励制度: 人员晋升制度; 人才储藏制度;3. 2培训及认证3.1.1 员工培训及资格认证筹划对于机房基本设施运维团队新员工应进行完整及严格的培训I,以保证其尽快具有岗位需要之知识及能力。培训内容应涉及机房基本设
14、施的所有系统H勺工作原理、操作流程、应急预案、以及管理制度等。对于所有运维人员宜设定以知识更新、技能提高为目的的年度培训及认证筹划。宜规定运维人员不断提高理论知识,以便于在缺少操作程序的应急状态下进行对的H勺处置。可借助行业第三方专业培训及职业技能鉴定平台,积极开展运维人员任职资格H勺评估工作。3.1.2 历史事件分析学习运维团队应将机房基本设施历史事件的总结分析作为培训的重要素材,进行全员培训;对于新员工应在上岗前予以培训I,以避免相似H勺事件再次发生。3.1.3 3组织学习运维团队管理者应积极参与行业交流,理解行业最佳的运维管理实践,并从行业故障案例中总结经验,做好自身整治。3.3运维外包
15、服务商3.3.1基本设施运维外包服务商的选择机房基本设施属于核心性设施,选择外包运维团队时应考察其机房基本设施的运维服务I1.勺资质、能力和经验。如机房作为商业物业的一部分整体外包运维,应规定外包运维机构针对机房基本设施设施部分设立专门I1.勺有机房基本设施运维经验I1.勺团队,并严格按机房基本设施的运维规程规范执行。3. 3.2运维外包服务商的管理对于外包服务商的员工H勺管理原则应当参照运维团队内部员工同等规定,行关人员只有在进行培训并得到有关的认证后才干从事有关H勺工作。外包服务商需要严格遵循数机房基本设施既定的操作流程和安全守则。机房基本设施运维管理的最后责任承当者是机房管理者,贡任无法外包。因此,机房应保存运维核心管理人员,对于外包团队打勺工作进行审核、监督和绩效评估管理。4设施管理建议3.1 资产数据库数据中心应建立完整及实时更新的资产数据库。数据库应涉及所有核心基本设施设备的清单,还应记录设备设施I1.勺运营状况、事件状况、变更状况、维护保养频次等信息。资产数据库应至少涉及如下信息:资产ID:每个资产的唯一标记号种类:一级分类(如电气、制冷、消防系统)子类:二级分类(如UPS、电池、PDU等)描述:资产的文字阐明制造:资产的