故障現象
1、內部關鍵業務響應很慢,信息處理不流暢;
2、服務器和交換機的CPU和內存利用率低;
3、無法定位查找到網絡響應慢的原因;
網絡環境
1、一台cisco3560交換機;
2、局域網內有8台服務器,其中4台是UNIX系統,另外4台是Windows 2003系統;
現場診斷
首先做Ping 測試。UNIX系統主機互ping的比較穩定,Ping值均小於1MS。而UNIX系統主機去Ping Windows系統主機的Ping值經常會出現9-15MS的延時。Windows系統主機之間互Ping值很不穩定,在1MS到15MS之間跳躍性出現。
現象分析
該網絡結構簡單清晰,服務器和交換機的性能良好。網絡內經常出現大於1MS的延時將會影響到整個網絡正常運行,對關鍵業務的運行造成影響,要解決該問題首先要找出延時發生的原因。
眾所周知,一次網絡交易處理過程:由客戶端發起連接,通過網絡轉發到服務端,服務端處理後再返回客戶端的。因此,在整個交易過程中的時延可以由三個時間來決定,客戶端響應時間(t1)網絡傳輸所用時間(t2)服務端響應時間(t3)。
現場測試發現UNIX系統主機之間ping值穩定的小於1MS,而Windows系統主機之間、或與UNIX系統主機Ping時出現較大延時。這就表明UNIX系統主機之間通信是良好的,但是與Windows系統主機通信、或Windows系統主機之間互相通訊過程中才會有延時的出現。因此,我們推斷是Windows系統主機響應較慢。為了驗證以上推斷,我們用科來網絡通訊分析系統2009進行診斷。
利用科來網絡通訊分析系統進行網絡診斷
(利用科來網絡通訊分析系統2009進行抓包分析)
首先,打開科來網絡通訊分析系統2009,配置上IP為 190.15.xxx.200,此主機做為ping發起者,向一台IP地址為190.15.xxx.218的Windows系統主機進行Ping測試。將該Windows系統主機的交換機端口做一個鏡像,鏡像收發的流量。然後,用190.15.xxx.200主機去Ping 190.15.xxx.218,用科來網絡通訊分析系統2009進行13分鐘的抓包。
抓包過程中我們發現,190.15.xxx.200主機在Ping 190.15.xxx.218主機的時候會產生9MS的延時,而且頻率較頻繁。而190.15.xxx.200主機Ping UNIX系統主機則都是小於1MS的延時。另外,在鏡像口收到的icmp response 不很穩定,而且是1MS與9MS交替出現,表明網絡是不停在抖動。
鏡像的位置是Windows系統主機的SW端口,因此在echo response出現的延時可以看做是服務端響應延時,而這個響應經常會出現9MS的時延。由此驗證:該網絡時延由win主機的響應慢造成。