一个成熟的网络管理机构一般都制定有一整套完整的故障管理日志记录机制,同时人们也率先把专家系统和人工智能技术引进到网络故障管理中心。但对于大多数初学网络的人来说,这未免有点过于复杂,不过没关系,我来帮大家总结一下网络故障诊断和排除的方法和经验,供各位网管和菜鸟参考。
我们可以根据网络故障的性质把网络故障分为物理故障与逻辑故障,也可以根据网络故障的对象把网络故障分为线路故障、路由故障和主机故障。 下面首先介绍按照网络故障不同性质而划分的物理故障与逻辑故障。
网络故障诊断和排除 1、
物理故障指的是设备或线路损坏、插头松动、线路受到严重电磁干扰等情况。比如说,网络管理人员发现网络某条线路突然中断,首先用ping或fping检查线路在网管中心这边是否连通。
网络故障诊断和排除 2、
ping的格式为:ping 192.168.0.1 (192.168.0.1是IP地址,可以是主机的IP也可以是网络中另一台计算机的IP)。ping一般一次只能检测到一端到另一端的连通性,而不能一次检测一端到多端的连通性,但fping一次就可以ping多个IP地址,比如C类的整个网段地址等。顺便多说一句,网络管理员经常发现有人依次扫描本网的大量IP地址,不一定就是有黑客攻击,fping也可以做到。如果连续几次ping都出现"Requst time out"信息,表明网络不通。这时去检查端口插头是否松动,或者网络插头误接,这种情况经常是没有搞清楚网络插头规范或者没有弄清网络拓扑规划的情况下导致的。
网络故障诊断和排除 3、
另一种情况,比如两个路由器Router直接连接,这时应该让一台路由器的出口连接另一台路由器的入口,而这台路由器的入口连接另一路由器的出口才行。当然,集线器Hub、交换机、多路复用器也必须连接正确,否则也会导致网络中断。还有一些网络连接故障显得很隐蔽,要诊断这种故障没有什么特别好的工具,只有依靠经验丰富的网络管理人员了。
网络故障诊断和排除 1、
逻辑故障中最常见的情况就是配置错误,就是指因为网络设备的配置原因而导致的网络异常或故障。配置错误可能是路由器端口参数设定有误,或路由器路由配置错误以至于路由循环或找不到远端地址,或者是路由掩码设置错误等。比如,同样是网络中的线路故障,该线路没有流量,但又可以ping通线路的两端端口,这时就很有可能是路由配置错误了。
网络故障诊断和排除 2、
?遇到这种情况,我们通常用“路由跟踪程序”就是traceroute,它和ping类似,最大的区别在于traceroute是把端到端的线路按线路所经过的路由器分成多段,然后以每段返回响应与延迟。如果发现在traceroute的结果中某一段之后,两个IP地址循环出现,这时,一般就是线路远端把端口路由又指向了线路的近端,导致IP包在该线路上来回反复传递。幸好traceroute可以检测到哪个路由器之前都能正常响应,到哪个路由器就不能正常响应了。这时只需更改远端路由器端口配置,就能恢复线路正常了。
网络故障诊断和排除 3、
逻辑故障的另一类就是一些重要进程或端口关闭,以及系统的负载过高。比如也是线路中断,没有流量,用ping发现线路端口不通,检查发现该端口处于down的状态,这就说明该端口已经关闭,因此导致故障。这时只需重新启动该端口,就可以恢复线路的连通了。还有一种常见情况是路由器的负载过高,表现为路由器CPU温度太高、CPU利用率太高,以及内存剩余太少等,如果因此影响网络服务质量,最直接也是最好的办法就是——更换路由器,当然换个好点的。(如果你有银子的话)