2020年6月份公司搬到了现在地址办公,在机房调试完Cisco 4506E三层交换后,发现ping外网地址存在数据丢包现象,但不是太严重,在可接受范围内。
而门禁系统、监控系统均有部分设备串到了内网的交换机,客户WIFI系统与内网共用了一条上网专线出口,网元多且网络拓扑复杂,便没有急于排查隐患。
今年 9月份报线路故障,电信运维工程师上门测了一下光损值在正常范围,笔记本单机测试了5分钟数据包正常。闲聊时我提出ping外网掉包的问题,工程师说他只负责到光纤收发器出来这一段,可能是内网的问题要你们自己解决,便匆匆结了工单,赶下一单去了。
今年10月份时发现数据掉包严重时掉包率达到2%,影响到了公司业务系统,暗暗地下定决心必须要找出问题点彻底解决!
解题思路:
一、抓数据包分析(最小化原则:分别断开各系统,单独分析)
二、分析确定故障点
三、解决方案
一、抓数据包分析
1.内网分析:
笔记本电脑上安装wireshark,内网抓了约1万个数据包,并没有发现数据包异常。
2.客户WIFI系统分析:接入客户wifi系统,抓包发现ARP告警异常。
客户WIFI系统网络拓扑结构是主路由H3C ER8300 <–> 防火墙H3C F100 <–> 无线控制器H3C WX3510H <–> AP,带了60个AP覆盖6层办公楼。
客户WIFI网络拓扑
线路问题 or AP问题 or 用户接入终端设备问题 ? 我不太确定
只能做最小化分析,每一层单独抓包分析后 ,发现只要接到了路由器上,都会出现ARP告警。
经历几番跌打滚爬,路由器上 “ARP安全” 中启用 “ARP防护” 后,ARP告警异常解决了,但外网掉包问题依旧存在。
ARP安全防护
3.门禁系统、监控系统分析:抓包都没发现异常。
转了一圈问题又回到了原点,那么换一个方向验证。
假设是内网某设备的问题导致的整个网络掉包,我用笔记本电脑(A)同时ping内网设备(三层交换机B、上网行为管理C)、电信公网ip网关(D)以及百度、163、qq等几个门户网站,则会出现内外网同时丢包的现象;
反之,如果ping内网设备(B、C)不丢包,且网关(D)及外网有数据掉包现象,则说明问题故障点不在内网,而是来自WAN口侧。
二、分析确定故障点
经过长时间持续ping测试验证,终端设备到三层交换机、上网行为管理均无丢包,而到电信网关、WAN网存在丢包,确认故障点:来自WAN口侧
拿起电话愉快地拨打中国电信光纤专线报障电话,接通后报上光纤接入号,等运维工程师上门处理吧。
PING测试
三、解决方案
电话过后半小时,运维工程师响应了,约了上午10:30上门,期间我的笔记本电脑还在一直ping着。
运维工程师上门后,跟他反馈电话挂断后就没丢过包了,运维工程师答复先观察几个小时,下午他还在这片区域,有问题再过来。
出门后,运维工程师微信发信息告诉我,电信机房重新做了数据,并把工单截图发了给我。
我乍一看,发现这是电信路由策略的锅啊,新策略取消了ICMP,启用uRPF就不丢了……不丢了……心里暗暗吐槽一下
电信故障工单
电信调整路由策略后ping值
到此持续了1年多的网络异常彻底解决。