公司有兩個完全隔離的網絡系統,內網和外網。內網的主要作用是處理一些安全性要求比較高,有保密性的事務。並且,內網上有很多服務器,如DNS、WEB、郵件、人事、檔案等服務器,這些服務器對公司業務的正常運轉都至關重要,所以一定要保證它們的安全性、穩定性和可靠性。而公司的外網主要是讓辦公人員訪問互聯網,在Internet下載資料,和外單位聯系時使用。
一、公司網絡概況
公司內網的核心層交換機使用的是Cisco 4507R,在Cisco 4507R上接有多個服務器。內網的接入層交換機使用的是Cisco 3750。內網中IP地址使用的是A類私有地址,其中內網的DHCP服務器IP地址為10.1.1.1/24。客戶端都是自動從DHCP服務器獲取IP地址、DNS和默認網關地址。內網的結構示意圖如圖1所示。
(圖1 公司內網結構圖)
外網的核心層交換機使用的是Cisco 4503。外網的結構相對內網要簡單許多,因為只要保證用戶能訪問互聯網就行,在安全性和穩定性方面要求比較低。外網中的接入層交換機使用的是Cisco 2960。IP地址使用的是B類私有地址。外網中只使用了一台服務器,即DHCP服務器,IP地址為172.16.1.1/24。同樣,外網中的客戶端也是自動從DHCP服務器上獲取IP地址、DNS和默認網關地址。外網的網絡結構圖如圖2所示。
(圖2 公司外網結構圖)
二、故障發生的過程
公司的內網和外網在客戶端接入時,有的辦公室要接入網絡中的電腦數量,比房間中的信息點數量要多。這樣如果不擴展房間中信息點數量,就不能保證所有的電腦都連接到網絡中。在這種情況下,我們使用了TP-Link的8端口交換機。交換機的一個端口上連到辦公室內網或外網中的一個信息點上,這樣交換機上的其它七個端口就可以直接連接到用戶的電腦上,有效的擴展了辦公室中信息點的數量。
引起網絡崩潰的錯誤連接發生在同一個辦公室中。錯誤連接的示意圖,如圖3所示。因為這個辦公室中的內網和外網的信息點都很少,所以在用戶接入內網和外網時,都使用了一個TP-Link的8端口交換機。發生故障前,辦公室一用戶發現自己的電腦不能訪問互聯網,就在不明白網絡運行原理的情況下,看到房間中有兩個TP-Link交換機,錯誤的認為是因為這兩個小交換機沒有連接起來而引起的故障,就找了一根網線,把兩個TP-Link交換機連了起來,結果導致公司內網和外網大面積的網絡崩潰。
(圖3 引起網絡崩潰的錯誤連接示意圖)
三、故障發生的現象和故障的排除
1、故障發生的現象。故障發生後,很多用戶打電話說不能訪問網絡。有的不能訪問內網,有的不能訪問外網。到故障現場查看不能正常訪問的電腦後,發現內網中的電腦獲取到的都是外網的IP地址,即172開頭的地址。而外網中的用戶獲取到的都是內網的IP地址,即10開頭的地址。所以我們根據故障現象,初步斷定是哪個辦公室中把內網和外網連接到了一起。
2、故障的排除。確定了發生故障的原因後,下一步就是找出在那個辦公室中把內網和外網連接到了一起。但是,可能引起錯誤連接的辦公室有好幾十個,總不能一個一個去排查,這樣效率太低。
後來,我們在機房中,逐一拔掉,連接配線架端口和交換機端口的每根網線,若拔掉某個辦公室配線架上的網線後,公司的網絡恢復正常,那就是這個辦公室中把內網和外網連接到了一起。後來我們用這種辦法找到了引起錯誤連接的那個辦公室,和開始的推測完全一樣,確實有人私自把內網和外網的兩個TP-Link連到了一起。把錯誤的連接斷開後,公司網絡全部恢復正常。
四、總結
1、DHCP服務器的工作過程。當一台電腦第一次接入到,配置有DHCP服務器的網絡中時,客戶機上沒有任何的IP數據設定,也就是沒有IP地址、DNS和默認網關地址,這時它會向網絡中發出一個 DHCP Discover數據包。因為客戶端還不知道自己屬於哪一個網絡,所以數據包的源地址為0.0.0.0,而目的地址則為 255.255.255.255 ,向網絡進行廣播。當客戶端將第一個 DHCP Discover數據包送出去之後,在 一秒之內若沒有得到響應的話,就會進行第二次 DHCP Discover數據包的廣播。若一直得不到響應的情況下,客戶端一共會有四次 DHCP Discover數據包廣播。
在DHCP服務器收到DHCP Discover發現報文後會做出響應,它從尚未出租的IP地址中挑選一個分配給DHCP客戶機,並根據DHCP Discover數據包中原來攜帶的客戶機MAC地址,向客戶機發送一個包含出租的IP地址、DNS和默認網關地址的DHCP Offer提供報文。
如果網絡中有多台DHCP服務器向客戶機發來DHCP Offer提供IP地址,則客戶機只接受第一個收到的DHCP Offer報文提供的IP地址。
2、深入分析導致網絡崩潰的原因。從以上分析DHCP服務器的工作過程可以看出,當網絡中有兩個DHCP服務器運行的時候,客戶機獲取IP地址時,哪個DHCP服務器提供的速度快,客戶機就采用那個DHCP服務器的提供的IP地址。所以,當把兩個TP-Link交換機連接起來後,內網和外網打通,成了一個整體的大網,並且網路中包含兩個DHCP服務器,這樣內網中的電腦可能獲取到的是外網的IP地址,而外網中的電腦獲取到的可能是內網的IP地址。結果就導致了整個內網和外網的混亂,客戶機也就不能正常訪問網絡了。
3、故障的經驗和教訓。首先要加強客戶端的管理。用戶出現不能訪問網絡的故障,應當及時向網路管理部門上報,而不應私自處置。其次,應當禁止用戶對放置在辦公室中的TP-Link交換機上的網線私自接入和拔出。