访问internet丢包和网速慢故障,该如何分析并解决?

故障现象简述
用户访问internet很慢 , 网页打开速度不能忍受;ping internet上服务器丢包严重;故障发生在每天的中午12点以后 , 持续到下午17点左右的下班时间 。故障连续3天发生.
网络拓扑图/应用说明


访问internet丢包和网速慢故障,该如何分析并解决?


应用说明:用户网络通过S6806E汇聚后 , 出口部署一台CISCO6509 。ISP对用户出口线路进行了20M限速 。
故障具体现象某用户反映访问internet很慢 , 网页打开速度不能忍受 , 需多次刷新才能打开;ping internet上服务器丢包严重;故障发生在每天的中午12点以后 , 持续到下午17点左右的下班时间 。故障连续2天发生 。
由于前二天故障发生时 , 恰逢中午 , 工程师已经安排任务 , 只能通过远程电话支持 , 通过简单的网络性能参数查看 , 判断网络故障与设备无关 , 故障与环境有关 , 根据故障发生的频 , 故障很可能在第三天重现 。第三天 , 工程师安排现场观察 , 以便故障重现进行故障定位和分析
故障详细分析1、根据前两天的故障现象:故障发生在中午12点多 , 持续到下班时间 , 故障即可恢复 。首先查看配置 , 确认配置没有问题 。
批注:因为故障发生的时间段很有规律性 , 首先查看配置 , 确认配置无误 。
2、根据故障发生时 , 引导用户查看核心设备和出口设备的cpu、内存利用率 , 发现都在正常范围之内 。判断故障与设备性能关系不大 。
批注:掉包/掉线类型的故障 , 要一定确认故障是否是由设备转发性能引起 。
3、根据故障时引导用户的ping测试 , 发现到对方ISP的地址ping无丢包 , 到ISP的下一跳出现丢包率很高的情况 。判断故障很可能与运营商的设备有关 。
批注:根据分段排查的原则 , 排查问题是否与ISP有关 。
4、第三天抵达现场 , 将前两天的测试和以上分析与用户交流 。用户开始与运营商交涉 , 并将以上第三点严重化 , 质问运营商 。运营商不敢怠慢 , 协调工程师与用户一起解决问题 。很快ISP反馈回来 , 近两天用户在某个时间流量异常 , 持续流量达40~100M , 而ISP提供给用户的是20M的流量 , 此时ISP的 工程师提供近5天来的用户流量图:
访问internet丢包和网速慢故障,该如何分析并解决?


说明:从上图可以看到异常流量在每天都持续2-4个小时 , 流量在50-100M之间 。
5、根据ISP的反馈和提供的流量图 , 可以看到平均流量在10M左右 , 近2天的流量中 , 有持续达到100M的情况 。根据ISP提供的流量图 , 结合ISP对用户带宽控制机制的了解 , 初步结论如下:ISP的网络设备针对用户的流量做20M限速 , 在流量异常时 , 超过20M的流量都被丢弃掉 , 大约有2~3倍于正常流量的流量被丢弃掉了 。可以想象大部分用户的业务、办公和internet访问流量被丢弃 , 以至于用户反映网络访问速度不可忍受 。
批注:根据基准线排查原则 , 以ISP限速20M的设定 , 可以明确的判断出用户发出流量异常 , 现在问题便是如何找到异常流量的来源 。

推荐阅读