故障現象
服務器不僅僅是企業網絡設備的中樞,也是企業軟件及數據庫應用的主體。在實際運行中服務器經常會出現這樣或那樣的故障,軟件的或者硬件的。很多故障是沒有規律可言的,我們只能通過經驗去解決。筆者負責公司服務器的維護工作,在一次實際工作中遇到了服務器無法登錄的故障,排查起來比較奇特,寫出來和各位讀者分享。
一、故障現象:
筆者公司規模不是很大,有大概50多台計算機,購買了兩台IBM服務器,型號是X SERVICE 200。由於內部使用的某個應用軟件需要Windows域的支持,所以在這兩台IBM服務器上啟用了windows 2000 server的域。一台作為域控制器DC,另一台設置為備份域控制器BDC。
由於備份域控制器在管理域上主要起輔助作用,所以配置完畢後基本沒有做任何修改和操作。然而前一段卻出現了主域控制器DC那台服務器無法登錄到系統桌面的故障,每次啟動該域控制器都停留在2000的登錄界面,即在要求輸入管理員帳號和密碼操作之前的界面,下方登錄信息顯示的是“正在連接網絡”,等待近一個小時仍然沒有任何進展,始終停留在“正在連接網絡”提示處。重新啟動該服務器按F8可以正常進入安全模式,然而只要一進入正常模式就出現上面提到的問題。
排查故障
由於系統登錄總是停留在“正在連接網絡”處,所以筆者懷疑是網絡出現問題,例如主域控制器無法通過DNS解析自己。嘗試進入安全模式將網卡禁用,這樣系統就不會搜索網絡,嘗試連接網絡了。果然通過禁用網卡後系統可以正常進入桌面。
不過禁用網卡並不能治本,雖然服務器可以登錄桌面但是所提供的服務其他客戶機也無法使用了。為什麼沒有了網卡就可以登錄呢?筆者再次將解除故障的思路集中到域名解析上。眾所周知在啟用了域的網絡中,DNS解析的域名與計算機是一一對應的,任何一台計算機沒有在主域控制器上保留正確的DNS對應名稱的話都將無法使用網絡。
筆者在主域控制器上查看DNS服務的配置,發現主域控制器的DNS地址被設置為備份域控制器的IP地址。看來是備份域控制器上的DNS解析出現了問題。筆者馬上到備份域控制器進行檢查,原來是備份域控制器上的網線與網卡接口連接處松動了,也就是說備份域控制器實際上脫離了整個網絡。將備份域控制器上的網線插牢後啟動主域控制器上的網卡後就可以正常進入系統了,故障得到排除。
進階思考
本次故障看似是因為備份域控制器上的網線松動造成的,實際上是我們在建立域時的配置出現問題的結果,為什麼這麼說呢?因為在建立域時我們最好按照以下規則來配置DNS。
(1)DC與BDC上都安裝DNS服務,而不是僅僅一台服務器上啟用,防止DNS解析錯誤,為DNS解析提供冗余功能。
(2)DC本機DNS服務器設置為自己的IP地址,BDC本機DNS服務器也設置為自己的IP地址。
(3)同時在DC上輔助DNS服務器地址還要設置為BDC的地址,相應的BDC上的輔助DNS服務器地址也要設置為DC的IP地址。
這樣我們在進行DNS解析時就不會輕易出問題了,象本次這樣的故障也不會發生了。因為登錄主域控制器時進行DNS解析並連接網絡時就會自動查詢自己本機的DNS設置,即使BDC網線松動或關機也不會影響DC的登錄。
總結:
在Windows系統中配置域控制器是件非常麻煩的事情,而且故障的發生更沒有規律可言,所以在升級網絡為域時這個初始化操作也一定要遵循上面介紹的規則,這樣可以將故障發生機率降到最低。