数据中心运维管理方案.docx

上传人:王** 文档编号:1394528 上传时间:2024-07-05 格式:DOCX 页数:34 大小:80.66KB
下载 相关 举报
数据中心运维管理方案.docx_第1页
第1页 / 共34页
数据中心运维管理方案.docx_第2页
第2页 / 共34页
数据中心运维管理方案.docx_第3页
第3页 / 共34页
数据中心运维管理方案.docx_第4页
第4页 / 共34页
数据中心运维管理方案.docx_第5页
第5页 / 共34页
数据中心运维管理方案.docx_第6页
第6页 / 共34页
数据中心运维管理方案.docx_第7页
第7页 / 共34页
数据中心运维管理方案.docx_第8页
第8页 / 共34页
数据中心运维管理方案.docx_第9页
第9页 / 共34页
数据中心运维管理方案.docx_第10页
第10页 / 共34页
亲,该文档总共34页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《数据中心运维管理方案.docx》由会员分享,可在线阅读,更多相关《数据中心运维管理方案.docx(34页珍藏版)》请在优知文库上搜索。

1、10)漏水报警系统监控、接受报警短信和联系专业第三方;11)IC卡门禁系统日启运维;12)视频监控系统日常运维;1.1 UPS报警系统监控和联系第三方;14)机房资产管理系统(CMDB).15)机房环境。清理机房的杂物,将机房物品定置.清洁机房门窗、地面。定期清洁电池室的地面;检百机房所有与外界的空洞是否已严密封堵,严密防鼠;检查机房玻璃、地板、天花板、通气口,墙体表面是否正常,外观是否完好,有否出现老化现茨.检声机房是否有漏水现蕊.检查机房墙壁是否有渗水现釜.镇写巡检记录,有问题及时报告.16)巡视电池间;检查电池工作状恋.17)确认机房照明良好,出现问题及时报告.18)视频网络播放系统。定

2、期检查可用性,有问题及时与专业第三方公司联系解决.19)填写巡检记录.1.2 网络运维管理针对数据中心的网络部分,运堆内容主要包含以下内容1)测试网络接入速度,监控网络访问可用性和访问质量,出现问题第一时间亘接联系接入商解决.2)网络接入商变化时,配合网络接入商对网络变更方案的可行性审查、问题审直.配合网络接入商更替施工.3)局域网.本地局域网日常管理和维沪;V1.AN划分;网络性能优化;故障俳除;网络节点周期性检直,发现潜在问题,并解决。4)无线局域网。负责无线局域网的日常管理和维护;客户端不能正常接入网络的故獐徘除;网络性能优化;故障排除;网络节点周期性检直,发现潜在问题并解决.5)远程接

3、入.制定VPN使用策略,实施VPN用户日常远程接入服务器的管理.以及性能优化和故障排除等.6)网络病毒查杀和网络安全保护。7)根据实际项目或安排而产生的其他工作.1.3 服务器和存储运堆管理1.3.1 眼务器运行情况及性能监测数据中心运维团队将通过综合监控系统实施7*24小时平台设备监控发现告警,并进行处理,解决问题.对系统运行进行实时检百.对监控或维护中发现的问题及时处理,消除隐患,保障平台的稳定运行.并且还提供针对各服务器物理资源的使用情况和麋作系统的运行情况.进行实时监控,提供服务器安全监测报告.对文件系统空间的使用进行监控,发现空间使用不合理或需要清理的协调解决。数据库空间管理应实时监

4、测数据存储空间的使用情况,根据业务数据的数据星、数据结构以及增长速度,制定合适的数据存储和结构优化策略,动态增加新的空间以存放业务数据;定期检查数据存储空间的使用情况,根据实际情况规划增加新的空间,境写数据库空间新增/修改/删除申请表,经审核后实施,并更新数据库配置状况记录表.2.3.4 机柜、电源、网线布局管理运维团队对于新上架安装的设备,需要进行拍照留档,确认各线路位置,并对服务器的电源部分进行编号整理,最终登记在册.2.3.5 协助第三方堆护对于由专业第三方提供运维的设备,设备出现问题后运维团队需及时通知第三方并告知采购人,视情况严重性,决定是否启动应急预案;配合第三方服务商一起排查和解

5、决问题,实施为了解决故障而进行的系统软硬件的补丁、升级及维护工作.独立处理初级系统故障,与第三方厂商或服务商配合解决高级别系统故障.记录问颖、故障的解决办法及解决过程,做出临时的配置变更以排除故障,在必要的时候,提出永久性配置变更建议.2.4 基础软件运维管理2.4.1 操作系统运维团队充分保障服务器操作系统的稳定运行,将提供以下服务内容:D系统升级运维团队在维护系统稳定运行的同时,需主动收集系统关健补丁、软件补丁等信息,在通过数据中心专家评审的前提下,对相关系统进行升级服务,并在升级完成后配合应用方对系统进行测试.升级前后需要和应用方及时做好沟通确认工作.确保不会产生兼容性导致的故障.2)操

6、作系统稳定性监控定时查看操作系统日志及HS日志,专看CPU、内存占用率,排除故障。3)权限与文件管理服务器应明确奏任人及管理帐号持有人,不应出现多人单帐户,单人多帐户的情况,不利于在服务器出现问题后,对服务器进行操作维护、查找问题。4)定期检直磁盘空间进行磁盘文件排列的优化和错误扫描,并处理错误;安全地删除系统各路径下存放的临时文件、无用文件、备份文件等等,完全释放磁盘空间.5)维护系统注册表.6)系统配置.优化系统配置,关闭无用服务和端口,以最适合系统运行方式,最小化安装等.维护系统配置文档.7)负责系统用户管理,如增加、删除用户、重置用户密码、管理用户权限等.进行系统用户管理时,记录所有相

7、关的系统变更.8)对于新安装的服务器,运维团队应负责安装必要的应用软件:如远程监控工具、备份工具.防病毒软件等.2.4.2 数据库运维团队将对数据进行日常维护,在数据而性能监控的检查列表包括:资源使用情况运行情况数据库进程状态数据库连接状态数据库进程使用资源数据库的表空间(数据表空间、索引空间、临时表空间等等)使用情况;数据库日志空间回滚段使用情况数据库锁的数量死锁的发生、死锁资源数据库碎片的数量磁盘I/O数据库运行日志数据库用户登录情况监控结果应做登记管理,如实记录系统日常运行状况及异常情况,填写日常运行情况记录表;除此之外,数据库的运维工作还包含一些其他工作,如:1)数据库备份和恢系2)做

8、好备份计划,工程师定时完成,因备份占用内存较大,在访问量大的情况下进行.当出现数据问题时,向采购人常理部门通报,说明数据情况,后恢复.3)访问性能优化及数据库同步4)服务器管理人员需记录详细的设置;数据库如需要同步,应明确同步时间或实时同步等方式.5)数据库日志和表空间,定期进行整理,问题解决。2.4.3 中间件运维团队针对中间件的运维工作,内容如下:DOracleWeblogic,辅助开发公司进行配置,保留配置文档.模块配出与更新,死合第三方配置JaVa及Wls的版本及更新工作.操作系统模块配送与31新,配合第三方配营麋作系统到可用的版本及更新.配合反馈第三方解决服务错误日志中的问题.2)新

9、软件安装,收集安装光盘、安装合同(可复印学习)、使用说明书、授权书(1.iscense).纸质版文件扫描后入库,电子版文件进入配普库.2.4.4 笛份系统为保证在系统崩溃或停止运行时能尽快恢欠系统,将制定相关的数据备份制度.应针对不同系统制定备份方案,应包括备份方法、频率等.数据备份包括定期和不定期备份.电要数据应每月进行全备份和增量备份;不定期备份应该在数据变更后立即进行,更新前的备份按需要保存一定时间.2.4.5 应用系统当前的应用系疣及相关的开发工作由第三方公司负责,运维团队主要起配合作用,相关的工作内容如下:D当应用出现问题,及时联系第三方解决,并做问期记录.2)配合第三方进行操作系统

10、、数据库和中间件的系统配置,并做配置记录,在有授权运维的系统中,熟悉应用系统维护方法.3)配合第三方新应用系统上线,需收集安装文件,源代码,部署文档、运维文档.扫描后,入配置库.与合同库相关联,记录维护期间联系人,原公司质保期.4)每日上班后、下班前检套可用性,确认无灾难性问题、黑客篡改问题.5)其他待完成工作,根据实际情况来处理.第三章运维工作内容3.1 日常维护工作运维团队的值班安排分三班,保持7x24小时的人员安排,在任何时间数据中心都由值班人员.运堆团队根据数据中心的运维管理制度,通过主动性、预防性维护,执行日常维护作业计划,对告警、性能、运行状态进行检直分析,及时进行数据备份,并定期

11、对备份数据进行恢复性测试验证,对系统运行质量进行分析,并进行维护记录.对监控或维护中发现的问题及时处理,消除隐患,保障平台的稳定运行.3.2 系统性能监控管理运维团队通过综合监控系统等实施724a小时平台设备监控,发现告警,并进行处理,解决问题。使用综合监控系统对系统运行进行实时检直。对监控或维护中发现的问题及时处理,消除隐患,保障平台的稳定运行.3.3 系统维护管理故障处理运维团队负责故障发现、故障分析、故障处理工作,在规定时间内,处理完成故W,同时负责调音故獐原因,最后编写详细的故障报告,包括故障发生的起止时间、原因、现象、处理过程、处理结果和处理经验。如果故障设备或组件为第三方堆保,值班

12、工程师负责和第三方对接,迅速解决问题.软件和补丁维护操作系统级别的软件和补丁服务运维团队对于维保设备提供所有软件补丁,提供预警服务,对于软件的维护版本提供补丁,并按稳定性和安全性的要求,提供是否升级的建议,评估风险和制作实施方案.故障经工程师的分析表明它是由一个软件错误所引起的,那么运维团队需提供相应的软件版本和补丁.对于软件版本和补丁的安装,运维团队首先将确认是否可以在对应平台上进行装载.若确认可实施,运维团队则将提供补丁升级服务,升级前要配合相关应用方做好测试.应急预案及演练为加强风险管理意识,提高应急预案相关人员的应急处置能力,及时发现应急预案可能存在的问题,确保在紧急情况下,应急预案能

13、终真正发挥作用,需要通过周期性的演习演练来不断检验应急体系应急预案的可篇性、有效性和可操作性。应急预案的演习演练方式、演习演练频度等内容明确如下:1、演练分为桌面演练和实战演练两种方式,每次演练都应该有相关技术人员全程参与。2、定期桌面演练,定期实战演练;3、每次演练结束之后应进行分析和总结,及时完成应急预案的更新、优化和完善.防助第三方维护在服务期内,运维团队将配合第三方或服务商进行系统的升级、替换、新部件(模块)安装等,并在实施完成后确认工作正常.备份为保证在系统崩溃或停止运行时能尽快恢宜系统,将制定相关的数据备份制度.应针对不同系统制定备份方案,应包括备份方法、频率等。数据备份包括定期和

14、不定期备份.审要数据应每月进行全备份和增量备份;不定期备份应该在数据变更后立即进行,更新前的备份按需要保存一定时间.系统优化对于巡检或日常维护过程中发现的系统除患或系统不是处于满意状态,提供相关系统优化的报告.对于运行情况跟踪,预防性诊断设备存在的隐患,提供系统优化建议,提供系统规范和流程的建议,提供系统优化概要.硬件设备统计运维团队将定期对参保设备进行统计.质分析报告运维团队建立数据中心平台的质量分析报告。每月汇总设备运行质量、系统性能等指标,进行数据中心平台运行质量分析,徘除质最降患,不断提高网络运行质量和服务质量。运维工程师应每周和每月对于数据中心在网系统运行情况作分析,数据采集、统计和

15、分析系统设备的运行数据,形成系统运行周报和月报.分析报告,包括优化设备运行的绩效,提高系统稳定性的建议,对于系统扩容和优化投资的建议,提供系统运行情况概要,系统中关犍设备的运行情况分析,并能识别和解决潜在问鹿,做好预警,制定并实施相应的优化措施,并对于系统的扩容和项目投资提供建议报告.3.4 系统配置与支持维护运维团队的日常工作中,在系疣配置和支持方面的工作内容如下:维护系统软硬件配置文档;负责系统用户管理,如熠加、删除用户、电占用户电码、管理用户权限等;进行系统用户管理时必须遵循数据中心的账户命名规则及账户密码策略,并文档记录所有相关的系统变更;每月提交系统账户变31月报;配合第三方进行升级、安装系统,及时更新操作系统补丁,进行系统软件备份;根据运维报告及统计报表,每月制定维沪作业计划,并提交日常维护报告;3.5 系统容是管理运维团队至少每半年进行一次对于每个服务器的系疣容员监测的审核,并制定相应的容量规划,主要监测文件系统的空间、数据库的空间资源利用情况,分析资源利用趋势,并提供资源情况月报表。文件系统空间管理定期检查文件系统的空间使用情况,根据业务发展需求和新业务的增加,制定合理的空间分配方案,新增、修改或删除空间.对文件系统空间的使用进行监控,发现空间使用不合理或需要清理

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > IT计算机 > 数据库

copyright@ 2008-2023 yzwku网站版权所有

经营许可证编号:宁ICP备2022001189号-2

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!