服务器典型故障排除操作手册.docx

上传人:王** 文档编号:1044905 上传时间:2024-03-22 格式:DOCX 页数:12 大小:32.59KB
下载 相关 举报
服务器典型故障排除操作手册.docx_第1页
第1页 / 共12页
服务器典型故障排除操作手册.docx_第2页
第2页 / 共12页
服务器典型故障排除操作手册.docx_第3页
第3页 / 共12页
服务器典型故障排除操作手册.docx_第4页
第4页 / 共12页
服务器典型故障排除操作手册.docx_第5页
第5页 / 共12页
服务器典型故障排除操作手册.docx_第6页
第6页 / 共12页
服务器典型故障排除操作手册.docx_第7页
第7页 / 共12页
服务器典型故障排除操作手册.docx_第8页
第8页 / 共12页
服务器典型故障排除操作手册.docx_第9页
第9页 / 共12页
服务器典型故障排除操作手册.docx_第10页
第10页 / 共12页
亲,该文档总共12页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《服务器典型故障排除操作手册.docx》由会员分享,可在线阅读,更多相关《服务器典型故障排除操作手册.docx(12页珍藏版)》请在优知文库上搜索。

1、服务器典型故障排除操作手册目录1 .服务器常见故障类型分类12 .服务器常见故障现象及其对应的排除方法12.1 服务器开机无显示(加电无显示和不加电无显示)12.2 加电BIoS自检报错12.3 系统安装阶段故障和现象22.4 操作系统启动失败22.5 系统运行阶段故障23 .服务器故障排错的基本原则33.1 尽量恢复系统出厂配置33.2 从基本到复杂33.3 部件交换对比测试34 .服务器故障排除需要收集哪些信息44.1 服务器信息44.2 故障信息45 .服务器硬件故障处理实际案例46 .服务器常见软故障解决思路与实例77 .服务器常见内存故障现象实例91.服务器常见故障类型分类第1类开机

2、无显示第2类加电BlOS自检阶段故障第3类系统和软件安装阶段故障和现象第4类操作系统启动失败第5类系统运行阶段故障2.服务器常见故障现象及其对应的排除方法2.1 服务器开机无显示(加电无显示和不加电无显示)2.1.1 检查供电环境2.1.2 检查电源和故障指示灯(故障指示灯状态,目前很多厂商的服务器都有故障指示灯,或故障诊断卡等。)2.1.3 按下电源开关时,键盘指示灯是否亮、风扇是否全部转动2.1.4 是否更换过显示器,尝试更换另外一台显示器2.1.5 插拔内存,用橡皮擦擦拭一下金手指,如果在故障之前有增加内存,去掉增加的内存尝试2.1.6 1.6是否添加了CPU,如果有增加CPU尝试去掉2

3、.1.7 1.7去掉增加的第三方I/O卡包括Raid卡等2.1.8 ClearCMOS(记得使用跳线来清除,尽量不要直接拔电池,每款服务器清除跳线位置不一致,具体找不到电话联系一下厂商客服)2.1.9 尝试更换主板、内存等主要部件2.1.10 1.10清除静电,将电源线等外插在服务器上的线缆全部拔掉,然后轻按开机键几下2.2 加电BK)S自检报错2.2.1 2.1根据BIOS自检报错信息提示2.2.2 查看是否外插了第三方的卡或者添加部件,如果有还原基本配置重2.2.3 做最小化测试2 .2.4尝试清除CMOS3 .2.5看能否正常进入BloS2.3系统安装阶段故障和现象2. 3.1查看服务器

4、支持操作系统的兼容版本(从厂商能查到兼容性列表)3. 3.2系统安装蓝屏(对蓝屏故障代码诊断)4. 3.3安装在分区格式化的时候找不到硬盘(阵列驱动没有安装或者没有配置阵列,可以尝试适应引导光盘安装)2. 3.4大于2T的硬盘式应该如何分区(必须使用阵列卡才能实现或者有外插识别卡)(使用阵列卡配置阵列分成一个小于2T的空间,一个大于2T的空间,然后将系统安装在小于2T的上面,安装好系统后在使用GPT方式分区即可)2.3.5安装过程是死机(检查兼容性列表查看硬盘接口选择是否正确-一阵列驱动安装是否正确-一尝试最小化配置安装检查是否为内存和CPU等问题)2.3.6引导光盘安装失败(使用引导光盘安装

5、失败,查看引导光盘版本是否匹配,尝试手动安装系统,如有阵列重新配置阵列引导安装)2.4 操作系统启动失败2. 4.1在系统启动自检过程中有报错(具体查看启动报错信息在定方案)3. 4.2启动系统蓝屏(查看蓝屏代码核对)4. 4.3进入登陆界面死机(查看进入单用户或者安全模式是否正常,进入BIOS是否正常、是否会死机,进入磁盘阵列查看阵列状态是否正常,检查测试硬盘是否有坏道,最小化配置启动)5. 4.4忘记密码(windows使用PE破解,IinUX进入单用户破解)2.5 系统运行阶段故障2. 5.1安装数据库等应用软件报错(对系统版本和软件版本是否兼容,查看报错信息是否缺少插件)2.5.2系统

6、运行速度变慢(查杀病毒,检测阵列状态,测试硬盘有无坏道,重新安装系统或者修复)2.5.3运行蓝屏(查看蓝屏代码目录)2. 5.4运行死机(检查进入BIOS是否死机,进入系统后测试部件温度是否正常,windows系统查看dump文件)3. 5.5硬盘拷贝数据文件速度变慢(测试硬盘是否有坏道,如果有阵列检查阵列状态,检查改变条带大小,与软件应用要求测试对比)3.服务器故障排错的基本原则3.1 尽量恢复系统出厂配置3.1.1 硬件配置:去除第三方厂商备件和非标配备件3.1.2 资源配置:清除CMOS、恢复资源初始配置4. 1.3BIOSFW驱动程序:升级最新的BIOS、F/W和相关驱动程序5. 1.

7、4TPL:扩展的第三方的I/O卡是否属于该机型的硬件兼容列表(TPL)1.2 从基本到复杂1. 2.1系统上从个体到网络:首先将存在故障的服务器独立运行,待测试正常后再接入网络运行,观察故隙现象变化并处理。3. 2.2硬件上从最小系统到现实系统:指从可以运行的硬件开始逐步到现实系统为止。4. 2.3软件上从基本系统到现实系统:指从基本操作系统开始逐步到现实系统为止。1.3 部件交换对比测试3. 3.1在最大可能相同的条件下,交换操作简单效果明显的部件4. 3.2交换NOS载体,既交换软件环境5. 3.3交换硬件,既交换硬件环境6. 3.4交换整机,既交换整体环境总结:在服务器的维修中,线索都会

8、显得扑朔迷离,有的甚至按起葫芦翘起瓢。一般来说不可能一次就可以准确地判断出问题的所在。这样就要求工程师要有信心和耐心。出现错误一般的方法都是根据经验优先使用最简单排错方法测试,如果没有解决问题再找其它因素进行测试。总之,服务器出错后必须一步一步解决,没有捷径可言。4.服务器故障排除需要收集哪些信息4.1 服务器信息4.1.1 机器型号:什么厂家的机器、什么型号如:DELLR720服务器4.1.2 机器序列号或主机编号(如:主机编号为NCOo755666)4.1.3 1.3是否增加其它设备,如网卡、Raid卡、内存、CPU等4.1.4 硬盘配置,如是否做磁盘阵列,阵列级别4. 1.5安装什么操作

9、系统及版本(Win2003、Redhat等)4. 1.6在故障前有没有做过操作、或者运行了什么软件7. 1.7BIOS版本4.2故障信息4. 2.1在POST自检时,屏幕显示的异常信息5. 2.2服务器本身指示灯的状态6. 2.3报警声和BEEPCODES7. 2.4系统的事件记录文件8. 2.5Sel日志5 .服务器硬件故障处理实际案例(因厂家机型不同,在实际问题中如果遇到相似现象,也需要具体问题具体分析,请不要盲目套用)硬件故障是指服务器硬件出现异常而导致的各类错误,由于服务器构成比较复杂,因此在检查的时候必须认真、仔细。实例一有一台XXX型号服务器,配有256M内存,使用一个PlnXEO

10、N500带2M高速缓存的处理器。开机后没有任何显示,但系统日志上提示了一条CPU电压为0伏的信息,系统指示灯三灯不停在闪烁(指示灯三灯闪烁是服务器的另一种报警方式,我会在文后说明)。这种错误一般是处理器电压调节模块(VRM)出错或CPlJ出错或CPU与CPU板块接触不良,但也可能是CPIJ板块出错,这时情况就比较复杂了,必须经过认真慎重的思考。因为CPU板块在整个服务器中,占有举足轻重的地位,如果它出错服务器是会报致命错误的,并且在系统日志中会提示致命错误,但报CPU电压报错的情况也有5%左右。我们立刻把CPU调换在另一CPU插槽中,开机后依然是刚才的那种故障。所以在初步判断中,可以排除是CP

11、U板块坏。这时取出CPU仔细擦拭金手指,以及CPU板块中与CPU接触的地方后,开机依然无显示。相对处理器坏的情况来说处理器电压模块(VRM)出现故障的情况比较大。于是立即在另一台同型号服务器中取下一个处理器电压模块,安装在此服务器中。开机后,服务器依然没有任何显示,系统日志上依然提示CPU电压为0伏的信息,系统指示灯三灯依然不停在闪烁。这时的情况就比较明显了。于是立即从另一台同类型服务器中取下一个CPU安装后,开机正常。实例二有一台XXX型号服务器不显示,发现开机时系统日志没有任何信息,且系统指示灯不亮。初步判断是电源方面出现了错误。经过仔细检查,发现服务器的电源是正常的,因此最大的可能就是服

12、务器的电源管理板出现故障。更换电源管理板后,开机显示正常。但这时,新的问题来了:自检时,用CTRL+M不能检测到硬盘。硬盘在别的服务器上是正常的,因此立即清除此服务器的CMOS,但依然不正常。立刻上网找到此服务器的最新BIOS,升级BK)S后也不能解决问题。又检查硬盘笼子和服务器里的数据线及电源线后依然出错。这时,一般情况会怀疑是服务器的I/O板(输入输出板块)有问题。但就在这个时候,工程师发现在I/O板上有一个非XXX型号服务器标配的旧式网卡,立即去除此网卡后服务器就一切正常。硬件故障并不单单指硬件有问题,它也指硬件之间不兼容。因为服务器的正常运作需要各部件之间的大力协调。建议大家在采购各元

13、件时,都采用同一品牌原装的,并且要采用能发挥服务器性能的元件(上例中的旧式网卡即使正常也会严重影响服务器性能),这样才不会发生莫明其妙的故障。实例三用户需要把他的XXX型号服务器升级到双网卡,我建议他购买原装网卡,但当他看到XXX型号服务器的网卡是采用的INTEL82559芯片后,断然决定不使用原装网卡而采用另一品牌也采用INTEL82559的网卡。过了几天,他打电话给我说,他的新网卡不能使用网络冗余及数据校验,并怀疑服务器有问题。工程师带了一个INTEL82559网卡到用户那里,仔细检查了服务器的环境完全正常后,把INTEL82559网卡安装到机器上后一切正常。这个例子更加说明了,要发挥服务

14、器的最大性能及功能,必须使用原品牌原装的配件。非原品牌非原装的配件,不能支持服务器的某些功能,严重的会影响到服务器的正常使用。要避免硬件故障发生频率,服务器管理人员必须注意服务器的使用环境完全正常。比较重要的服务器必须在恒温、恒湿的环境;电压也要符合,不仅要采用UPS,还必须接地线,必须是左零线、右火线,零地电压在3伏。在开、关服务器上必须符合正常的流程。工作人员必须严格执行操作流程。实例四服务器故障现象一台XXX型号服务器,近期频繁出现几次蓝屏幕死机故障。趁死机关闭的机会,将内存由原来的128M升级到512M(普通内存),并且在系统CMoS设置中选择装入(Load)最优参数设置,对内存每个单

15、元进行检测。怪异服务器故障出现了,当我开机后,内存检测正常,但是屏幕提示须重新SETUP,按指定的F2键后却死机。我装个内存条招谁惹谁了,怎么会死机?而且内存检测正常啊?服务器故障处理服务器出了故障就要解决,哪怕是怪异服务器故障。按照缩小故障源的思路,换回原来的内存条,逐步去掉各个部分(软驱、硬盘、光驱等),可是这个怪异服务器故障依然存在。分析可能与系统SETUP设置有关,特别是关于对内存每个单元进行检测的设置。于是,拔出电池,对电池插脚短接放电,没有奏效。看来,这个怪异服务器故障还真是顽固。后来,找到主板清除CMoS跳线设置,将插脚线由1-2改到2-3一会儿,然后恢复原位,开机正常(提示:不要轻易拔出电池,而是要找CMOS清除跳线)。再次将内存升级,调整CMoSSETUP设置,特别注意到对内存的检测,设置为检测到每兆,至此系统完全恢复正常。服务器故障经验这个怪异服务器故障发生的根本原因是服务器的内存缺省设置为ECC(带校验),由于使用普通不带校验的内存,而系统中设置每个单元都进行检测,所以导致了上面的故障。排除的方法是清除CMOS设置,调整有关参数设置。另外CMOSSETUP装入最优参数设置通常有2种:一种是BIOS优化参数,这种参数稳定性

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > IT计算机 > 服务器

copyright@ 2008-2023 yzwku网站版权所有

经营许可证编号:宁ICP备2022001189号-2

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!