萬盛學電腦網

 萬盛學電腦網 >> 服務器教程 >> 利用高級技術實現可靠性服務器

利用高級技術實現可靠性服務器

   聖誕節就快來臨了,在IT人員的願望清單裡,可靠的服務器必不可少。隨著虛擬化技術的出現,一台物理服務器承載了幾十個工作負載,對可靠性的需求就更加強烈,因為硬件故障與失敗的遷移都會導致服務器崩潰,那就麻煩了。

  與服務器可靠性相關的技術,如冗余電源供應、內存錯誤監測與糾正都進行得有點慢。需要識別、容納與解決故障條件的協議與行為花費太昂貴,而且橫跨所有層的交互操作並沒有廣泛的實施標准。本文介紹一些最新的工具,方便IT人士打造可靠的服務器。

  存儲子系統可靠性

  檢查奇偶校驗位與錯誤糾正碼ECC的技術可追溯到十多年前,較新的內存熱備份與鏡像都也比較完善。當然,隨著內存數量與其重要性在服務器中伴隨著虛擬化蹭蹭上升,我們需要更強悍的內存控制技術。

  請求與巡視清除是ECC內存的高級應用。在請求清除中,系統可在運行期間糾正隨機或偶然的ECC閱讀錯誤。巡視清除可積極主動地定位並糾結系統內存中的錯誤。如果這些行動對於修復內存錯誤還不管用,那麼就意味著永久性故障。潛在的永久性故障觸發彈性功能,如使用鏡像內存模式拖拽數據。有些系統會將失敗位置打上標簽,防止今後使用有問題的內存。

  EEC只能在任何內存位置上糾正單位錯誤,如果是其他高級錯誤就得用上其他技術。如單台設備數據糾正器SDDC或高級ECC,其結合ECC模式在單個內存芯片裡糾正多位內存錯誤。通過比較,雙設備數據糾正器DDDC可讓服務器抵御兩個內存芯片上同時發生的多位錯誤。增強型的DDDC或DDDC+1能在此基礎上發現並糾正額外的單位錯誤。這些技術解決了范圍更廣的內存小故障,預防共工作負載崩潰。

  內存鏡像通過提供DIMM保護內存,對內存內容進行同步化的復制。當監測到有內存故障,系統交換到鏡像副本,直到替換出故障的DIMM.市面上的新款服務器支持局部內存鏡像:只對任務關鍵工作負載所用服務器部分內存進行鏡像。顯然,這是降低成本的一種方式。

  處理器子系統可靠性

  服務器可靠性最大的威脅是在於當內存或處理器故障傳達到系統,並且在工作負載之間傳遞。數據遏制模式識別一個或多個內存位置有錯誤,預防其他進程繼續使用。例如在發生不可糾正錯誤時,過濾模式阻止系統將網絡數據移動到PCIe總線,隔離服務器,阻止任何意外的網絡數據傳輸到用戶或其他服務器那去。

  服務器使用處理器清除,將工作負載從有錯的處理器核心無縫遷移到空閒的核心。有錯的處理器就一直空閒著,直到解決了錯誤問題。至於內存清除,處理器清除只能在你的服務器有空余核心時才能發揮效用,所以對於利用率高的主機來說不太方便,因為無法忍受宕機時間。如果你的服務器使用插座禁用功能,它甚至可以啟動一個有故障的處理器。

  可靠性服務器的其他功能

  過去,服務器故障會導致關閉整個系統,修復有錯的設備。某些服務器現在包括熱添加或熱插拔功能,所有在服務器運行期間,有相關技術能升級或替換核心組件,如CPU、DIMM、PCIe卡等。

  熱添加是電氣工程的、BIOS和操作系統智能的結晶。某些操作系統,如Windows Server 2008 R2、Red Hat Enterprise Linux 6與SUSE Linux Enterprise Server 11,可在服務器運行期間識別新資源並加以配置。

copyright © 萬盛學電腦網 all rights reserved