我们的客户在使用华为交换机S9312下面挂S5328交换机业务的时候出现网速慢的情况,经过华为工程师的排查解决,终确定问题并解决问题,为防止以后还有用户会遇到这类问题,特将解决过程发布出来。
客户设备版本信息如下:
设备名称 设备型号 现网版本及补丁
核心B1_S9312_00 S9300 V100R002C00SPC200+s9300v100r002sph020
核心B1_S9312_01 S9300 V100R002C00SPC200+s9300v100r002sph020
汇聚S5328 S5300 S5300EI-V100R005C01+no patch
2、故障现象:当客户PC接入网络后(PC业务段为192.168.3.0/24段,服务器地址为172.16.9.1/24),客户反馈打开办公应用软件比如挂号软件会不定时出现卡顿、反应慢的问题。
3、网络拓扑及概述如下:
现网部署2*S9312做业务网关核心,同时部署VRRP实现网关冗余。S9312下挂1*S5328做汇聚交换机。汇聚S5328交换机的XG0/1/1(smart-link组的active端口)互联到s9312_01(VRRP状态为备)的G1/0/2端口,同时XG0/1/2(smart-link 的inactive端口)到s9312_00(VRRP状态为主)的G1/0/2端口,如上图。
告警信息
在交换机S5328的互联接口上存在大量的CRC校验错误信息,如下红色显示:
Description:huijuS5328
Switch Port,PVID : 1,The Maximum Frame Length is 1600
IP Sending Frames' Format is PKTFMT_ETHNT_2, Hardware address is 0025-9efb-ac81
Port Mode: COMMON FIBER
Speed : 10000, Loopback: NONE
Duplex: FULL, Negotiation: DISABLE
Last 300 seconds input rate 5072 bits/sec, 6 packets/sec
Last 300 seconds output rate 176 bits/sec, 0 packets/sec
Input peak rate 1598840 bits/sec,Record time: 2014-07-23 11:35:06
Output peak rate 145328 bits/sec,Record time: 2014-07-23 11:41:03
Input: 72119376 packets, 14743537895 bytes
Unicast : 9330953,Multicast : 46252581
Broadcast : 16535842,Jumbo : 0
CRC : 912345,Giants : 0
Jabbers : 0,Throttles : 0
Runts : 0,DropEvents : 0
Alignments : 0,Symbols : 0
Ignoreds : 0,Frames : 0
Discard : 0,Total Error : 912345
Output: 9183362 packets, 1100225790 bytes
Unicast : 8586737,Multicast : 459712
Broadcast : 136913,Jumbo : 0
Collisions : 0,Deferreds : 0
Late Collisions: 0,ExcessiveCollisions: 0
Buffers Purged : 0
Discard : 0,Total Error : 0
Input bandwidth utilization threshold : 100.00%
Output bandwidth utilization threshold: 100.00%
Input bandwidth utilization : 0.01%
Output bandwidth utilization : 0.01%
处理过程
1、根据客户反馈的PC终端打开办公软件不定时出现卡顿、反应慢的问题和客户沟通,并找多台PC测试验证故障现象,测试的终端出现此类问题,无法确定是客户办公软件问题还是网络问题。
2、在故障现象出现时在PC端通过ping测试验证网络的质量,结果ping出现大量的丢包,初步判断网络存在丢包问题,基本排除终端办公软件的问题。
3、由于网络出现丢包,于是在在S9312上基于源和目的配置CBQ做流量统计,判断丢包发生的位置,流量统计配置如下:
#
acl number 3000
rule permit icmp source 192.168.3.2 0 destination 172.16.9.1 0
rule permit icmp source 172.16.9.1 0 destination 192.168.3.2 0
#
traffic classifier tongji
if-match acl 3000
#
traffic behavior tongji
statistic enable
#
traffic policy tongji
classifier tongji behavior tongji
#
interface GigabitEthernet1/0/2
traffic-policy tongji inbound
traffic-policy tongji outbound
#
通过在PC端ping测试,并在交换机上执行如下命令,进行流量统计查看:
isplay traffic policy statistics interface GigabitEthernet 1/0/1 inbound
display traffic policy statistics interface GigabitEthernet 1/0/1 outbound
通过分析对比,结果发现丢包出现在下行的汇聚交换机S5328上,同时查看S5328的互联接口,发现出现大量CRC错误信息,初步判定存在物理链路质量问题。
4、 和客户沟通,在汇聚S5328原有的物理链路基础上,新加一条尾纤连接到备核心S9312,排查是否物理连通性质量问题,同时排查其他可能引起网络丢包的可能原因。
5、进一步查看设备配置,发现在汇聚S5328上Smart-link 组配置异常,主备端口角色倒置,这样会导致网络流量转发不均衡,也有可能引起网络拥塞,导致上网慢的现象。
6、经和客户沟通,在客户下班时间段进行新增链路替换,同时调整Smart-link 组配置操作,待物理链路up之后且Smart-link组端口角色正常后,进行业务测试。通过ping和多台电脑打开办公软件测试,丢包和卡顿反应慢的问题故障排除。
7、经过两天业务观察运行,业务一致正常,故障再未出现,基本定位为物理链路和配置问题。
网络卡顿原因
客户网络出现打开办公软件卡顿,ping测试丢包的原因为:现网存在质量较差的物理互联链路且Smart-group 组成员端口角色配置主备倒置引起。
解决方法
1:更换质量较好的物理链路资源。
2:规划好网络时,严格检查配置的准确性,规范性,同时多做业务测试和验证。
总结
当现网出现丢包或上网慢时:先确定故障的现象和范围,通过流量统计或替换法等多种方法,综合考虑,逐步逐段去排查,找出解决问题的方法,并部署验证,到问题解决,使客户满意。