《运维故障排查 修复大全.docx》由会员分享,可在线阅读,更多相关《运维故障排查 修复大全.docx(42页珍藏版)》请在优知文库上搜索。
1、运维故障排查修复大全Ol网络故障01交换机刚加电时网络无法通信故障现象:交换机刚刚开启的时候无法连接至其他网络,需要等待一段时间才可以。另外,需要使用一段时间之后,访问其他计算机的速度才快,如果有一段时间不使用网络,再访问的时候速度又会慢下来。故障分析:由于案例中的交换机是一台可网管交换机,为了避免网络中存在拓扑环,从而导致网络瘫痪,可网管交换机在默认情况下都启用生成树协议。这样即使网络中存在环路,也会只保留一条路径,而自动切断其他链路。所以当交换机在加电启动的时候,各端口需要依次进入监听、学习和转发状态,这个过程大约需要35分钟时间。如果需要迅速启动交换机,可以在直接连接到计算机的端口上启动
2、PortFast,使得该端口立即并且永久转换至转发状态,这样设备可以立即连接到网络,避免端口由监听和学习状态向转发状态过渡而必须的等待时间。解决方法:如果需要在交换机加电之后迅速实现数据转发,可以禁用扩展树协议,或者将端口设置为PortFaSt模式。不过需要注意的是,这两种方法虽然省略了端口检测过程,但是一旦网络设备之间产生拓扑环,将导致网络通信瘫痪。02CO1.指示灯长亮或不断闪烁,无法实现通信故障现象:局域网中计算机通过集线器访问服务器,但是某日发现所有客户端计算机无法与服务器进行连接,客户机之间Ping也时断时续。检查集线器发现CO1.指示灯长亮或不断闪烁。故障分析:CO1.指示灯用于指
3、示网络中的碰撞和冲突情况。C01.灯不停闪烁,表明冲突发生;hCO1.zz灯长亮则表示有大量冲突发生。导致冲突大量发生的原因可能是集线器故障,也可能是网卡故障。一般情况下,网卡出现故障的可能性比较小,因此将重点放在对集线器的排除方面。解决方法:更换集线器,网络恢复正常。03升级至千兆网络之后,服务器连接时断时续故障现象:原先服务器采用10100MbITs网卡,运行一切正常。但是安装了一款1000MbITs网卡,用其连接至中心交换机的100oBaSe-T端口之后,服务器与网络的连接时断时续,连接极不稳定,无法提供正常的网络服务。使用网线测试仪测试网络,发现双绞线链路的连通性没有问题。故障分析:在
4、100Mbit/s时连接正常,只是在升级到100oMbit/s时才发生故障,看来导致这种故障的原因可能是超五类布线问题。虽然从理论上说超五类系统支持1000Mbits的传输速率,但是如果双绞线、配线架、网线和其他网络设备的品质不是很好,或者端接工艺有问题,就仍然无法实现100OMbit/s带宽。由于100OBase-T需要使用双绞线全部的4对线,每对线的有效传输速率为250Mbits,并完成全双工传输,因此100OBase-T对双绞线的信号衰弱减、回波、返回耗损、串音和抗电磁干扰等电气性能有了更高的要求。如果双绞线或者其他配件的性能不好,就会在线对间产生严重串扰,从而导致通信失败。解决方法:考
5、虑到五类布线系统的性能有可能无法满足千兆网络系统,因此更换为六类布线产品之后故障解决。04尽管1.ink灯不停闪动,但网速却奇慢故障现象:服务器上网速度很慢,开始时打开网页非常缓慢,后来甚至连网页都无法打开,Ping网站也无法解析地址。起初以为是DNS设置或者服务器故障,但是这些都正常运行。尝试Ping其他计算机,发现丢包率很高。而此时交换机的1.ink指示灯不停闪烁,数据的交换非常频繁,说明计算机在不停地发送和接受数据包。关闭交换机之后再重新打开,故障现象得到缓解,但是一段时间之后又出现这种故障。故障分析:从故障现象来看,这是网络内的广播风暴。广播风暴的产生会有很多种原因,比如蠕虫病毒、交换
6、机端口故障、网卡故障、链路冗余而没有启用生成树协议、网线线序错误或者受到干扰等。在网络故障发生的时候查看交换机指示灯是一个很便捷的判断方法,可以直观查看网络连通性和网络流量。解决方法:就目前情况来看,蠕虫病毒是造成网络瘫痪的最主要原因。及时为服务器更新系统补丁,并且安装网络版本的病毒查杀软件,及时为服务器升级病毒库,在服务器安装防病毒客户端程序之后,故障得以解决。05集线器和路由器无法共享上网故障现象:多台计算机采用宽带路由器和集线器方式,利用集线器扩展端口组网共享Interneto连接完成后直接连接至宽带路由器1.AN口的3台机器能上网,而通过集线器连接的计算机却无法上网,路由器与集线器之间
7、无论采用交叉线或平行线都不行,且集线器上与路由器1.AN端口连接的灯不亮。另外,集线器上的计算机无法Ping通路由器,也无法Ping通其他计算机。故障分析: 集线器自身故障故障现象是集线器上的计算机彼此之间无法Ping通,更无法Ping通路由器。该故障所影响的只能是连接至集线器上的所有计算机。 级联故障例如路由器与集线器之间的级联跳线采用了不正确的线序,或者是跳线连通性故障,或者是采用了不正确的级联端口。故障现象是集线器上的计算机之间可以Ping通但无法Ping通路由器。不过,直接连接至路由器1.AN端口的计算机的Internet接入将不受影响。 宽带路由器故障如果是1.AN端口故障,结果将与
8、级联故障类似:如果是路由故障,结果将是网络内的计算机都无法接入Internet,无论连接至路由器的1.AN端口,还是连接至路由器。解决方法:从故障现象上来看,连接至集线器的计算机既无法Ping通路由器,也无法Ping通其他计算机,初步断定应该是计算机至集线器之间的连接故障。此时可以先更换一根网线试试,如果依然无法排除故障,则可以更换集线器解决。06IP地址冲突故障现象:计算机经常出现提示系统检测到IP地址xxx.xxx.xxx.xxx和网络硬件地址00053BOC12B7发生地址冲突。此系统的网络操作可能会突然中断,然后就掉线一分钟左右又恢复网络连接。故障分析:这种系统提示是典型的IP地址冲突
9、,也就是该计算机采用的IP地址与同一网络中另一台计算机的IP地址完全相同,从而导致通信失败。与该计算机发生冲突的网卡的Mac地址是00053BOC12B7o通常情况下,IP地址冲突是由于网络管理员IP地址分配不当,或其他用户私自乱设置IP地址所造成的。解决方法:由于网卡的Mac地址具有唯一性,因此借助于MAC地址查找到与你发生冲突的计算机,并修改IP地址。使用IPCONFIG/A1.1.命令,即可查看计算机的IP地址与MAC地址。最后使用ARP-SIP地址网卡物理地址的命令,将此合法IP地址与你的网卡MAC地址进行绑定即可。网络工程师俱乐部02系统故障(此处以1.inUX系统为主)OlIinU
10、X系统无法启动原因1:文件系统配置不当,比如etcfstab文件等配置错误或丢失,导致系统错误无法启动。一般是人为修改错误或者文件系统故障。排查方法:系统配置etcfstab错误或丢失而无法启动,当启动的时候,出现StartingsystemIogger后停止了;解决方法:想办法恢复etcfstab文件,利用Iinuxrescue修复模式登录系统,从而获取挂载点和分区信息,重构etcfstab文件。原因2:非法关机,导致root文件系统破坏,也就是Iinux根分区破坏,系统无法正常启动。排查方法:1.inux下普遍采用的是ext3文件系统,ext3是一个具有日志记录功能的日志文件系统,可以进行
11、简单的容错和恢复,但是在一个高负荷读写的ext3文件系统下,如果突然发生掉电,就很有可能发生文件系统内部结构不一致,导致文件系统破坏。1.inUX在启动时,会自动去分析和检查系统分区,如果发现文件系统有简单的错误,会自动修复,如果文件系统破坏比较严重,系统无法完成修复时,系统就会自动进入单用户模式下或者出现一个交互界面,提示用户介入手动修复,现象类似下面所示:checkingrootfilesystemdevsdb5containsafilesystemwitherrors,checkforceddevsdb5:Unattachedinode68338812devsdb5:UNEXPECTED
12、INCONSISTENCY;RUNfsckMANUA1.1.Y(i.e.zwithout-aor-poptions)FAI1.ED/containsafilesystemwitherrorscheckforcedaneroroccurredduringthefilesystemcheck*droppingyoutoashell;thesystemwillrebootwhenyouleavetheshellPressenterformaintenance(ortypeControl-Dtocontinue):giverootpasswordformaintenance从这个错误可以看出,系统根分
13、区文件系统出现了问题,系统在启动时无法自动修复,然后进入到了一个交互界面,提示用户进行系统修复。这个问题发生的机率很高,引起这个问题的主要原因就是系统突然掉电,引起文件系统结构不一致。一般情况下解决此问题的办法是采用fsck命令,进行强制修复。解决方法:根据上面的错误提示,当按下Control-D”组合键后系统自动重启,当输入root密码后进入系统修复模式,在修复模式下,可以执行fsck命令,具体操作过程如下:rootlocalhost/#umountdevsdb5rootlocalhostfsck.ext3-ydevsdb5e2fsck1.39(29-May-2006)/containsaf
14、ilesystemwitherrors,checkforced.Pass1:Checkinginodeszblocks,andsizesPass2:CheckingdirectorystructurePass3:CheckingdirectoryconnectivityPass4:CheckingreferencecountsInode6833812refcountis2,shouldbe1.Fix?yesUnattachedinode6833812Connecttolost+found?yesInode6833812refcountis2,shouldbe1.Fix?yesPass5:Che
15、ckinggroupsummaryinformationBlockbitmapdifferences:-(519-529)-9273Fix?yes/:*FI1.ESYSTEMWASMODIFIED*/:19/128520files(15.8%non-contiguous),46034/514048blocks需要注意的是,在执行fsck的时候,一定要先卸载要修复的分区,然后再执行修复操作!网络工程师俱乐部原因3:Iinux内核文件丢失或者崩溃,从而无法启动,也可能是因为内核升级错误或者内核存在bugo这种情况一般Iinux系统启动会报错找不到内核文件,而内核文件存储在/boot分区,主要包括内核文件和初始化文件:1、VmIinlz:内核镜像文件,包含内核代码和数据显示error:file/vmlinuznotfound解决方案:a.使用可启动修复介质启动系统,并挂载系统磁盘的/boot分区;b.从安装介质或系统备份中提取vmlinuz内核文件,复制到/boot分区;c.更新引导配置(grub.cfg),将menuentry块中的IinUX行指向vm