故障現象
筆者單位的財務中心工作人員反映,近3個月營業收入總數增加了近20%,但入賬的營業收入卻只增加了8%,懷疑財務系統是不是有問題,要求網絡中心進行檢查。筆者首先從財務服務器查看收支記錄,沒有發現什麼問題。檢查財務服務器上的軟件,工作正常。
為穩妥起見,筆者更換備用的財務服務器,但是幾天後,財務中心反饋的結果還是服務器不能正確記賬。
診斷過程
這個故障比較棘手,看來需要對整個財務中心的網絡進行一次大檢查才能找出問題的根源。
筆者觀察其網絡結構,財務服務器連接到一台l6端口交換機的第一插槽8號端口。第9號端口下連接就是財務中心的100Mb/s的以太網,網管機也設置在這裡。
筆者打開網管機的網管系統,准備觀察8號端口的工作情況,這時才發現無法打開8號端口的工作表數據記錄。詢問財務中心的網絡維護人員,告知1個月前因交換機出現故障曾自行更換過備用的交換機,更換後系統工作很正常。
筆者查看維護工作記錄登記和日志,沒有任何關於該交換機的維護說明,也沒有關於網絡工作參數的記錄(記錄上顯示的還是財務系統開通時的原始數據)。筆者感到很奇怪,於是詢問維護人員為何不設置並打開交換機工作表的Mib。回答說網管系統平時只用來看看系統設備是否連接以及是否有報警信號,更多的功能也不會用。由於自行更換交換機後沒有發現什麼問題,也沒再仔細檢查。
從網絡維護人員這裡沒有得到什麼有用的信息,要進行實際測試才能判斷出故障的具體位置。筆者用網絡測試儀的協議對話分析功能從網管機所在網段觀察財務服務器的工作情況,發現服務器對約有1/3的數據包沒有回應"為了不影響財務中心工作,筆者在下班後用戶使用率低的時候,用F683網絡測試儀模擬財務服務器測試8號端口,顯示該鏈路工作於10Mb/s速率(原始記錄顯示這個端口的速率應該是100Mb/s)。由於交換機沒有啟動SNMP支持功能,所以筆者臨時在交換機某空閒端口安裝了一個10Mb/s的集線器與服務器連接,用網絡測試儀從這個集線器的任意端口對財務服務器發送數據並觀察服務器數據流工作情況,發現大量碰撞和錯誤的FCS幀,當流量為40%時,碰撞及錯誤流量占31%。筆者用電纜測試儀檢查服務器連接電纜,發現靠交換器頁端的插頭處近端串擾嚴重。重新更換插頭並正確打線,測試結果為碰撞率下降到0.6%,錯誤率為0%,比較正常。
於是筆者去掉臨時集線器,重新啟動交換機的SNMP功能,從交換機某空閒端口向服務器發送數據,用網管系統觀察8號財務服務器端口,發現當流量為50Mh/S時,碰撞率、錯誤率、廣播率等參數均表現優良,服務器恢復為100Mb/s鏈路速度。
為確認效果,筆者會同財務人員重新進行兩組各30次實際測試,財務數據完全正確。可以基本肯定財務功能已全部恢復正常。
排除心得
通過本例故障,我們可以總結出一些經驗:網絡維護人員要對網絡系統進行定期輪測(1至2年輪測一遍)。更換網絡設備後一定要對網絡鏈路進行測試(尤其是100Mb/S鏈路,必須用電纜測試儀測試)。另外,網管系統要指定專人進行維護使用,了般來講,網管系統可以覆蓋約30%左右的網絡故障,因此重要的網絡要安裝並使用SNMP或RMON協議(多數網絡設備都支持SNMP協議:部分支持RMON),啟動網絡中具備SNMP、RMON等功能的網絡設備,否則網管系統將形同虛設。在平時的維護工作中,要求有及時完整的工作日志和異常情況記錄,這對提高處理故障的速度是非常必要的。