一般情況下,如果路由表中有匹配的表項的話,則會進行後續的工作,路由器接口能接收到報文是其工作的基礎。
如果報文丟失的話,那麼將極大的影響到路由交換功能,最終導致數據的丟失,造成報文丟失的原因有很多,不過最主要的可能是路由器內存不足或者CPU過載所造成的。
要解決這個問題,首先需要判斷問題的原因。
一、內存碎片是指路由器內存被劃分了許多不連續的塊。他將導致內存利用率降低,嚴重時可能會產生內存錯誤,影響路由器的性能。它也會導致路由器報文丟失的問題。
其實不僅路由器的內存存在碎片問題,普通的硬盤也存在這種問題。如微軟操作系統中就自帶一個碎片整理工具,可以保障用戶來整理硬盤中的碎片,以提高硬盤的存儲容量以及存儲性能。這裡指的內存碎片其實跟硬盤碎片是類似的。
二、那該如何判斷路由器的內存是否存在碎片呢?這裡主要借助的是靈科路由器自帶的SHOW MEMORY命令。這個命令會顯示當前內存的相關信息。如執行這條命令後,會顯示當前可用內存(Free)與最大可用快(Largest)的數值。
網絡管理員把這兩個值進行比較,就可以判斷碎片對路由器性能的影響。這主要是把路由器的可用內存與最大可用快的大小進行比較。
如果路由器的可用內存與最大的可用快大小比較接近時,表示雖然路由器存在碎片但是影響不大。但是若最大可用的塊很小,如只有最大可以用內存的幾十分之一,那麼就說明路由器內存碎片問題比較嚴重了。
三、如路由器的可用內存為20M, 而最大可用塊的大小為15M的話,則表示路由器內存中是有一定的碎塊,但是這點碎塊不影響路由器的正常運行。如果可用內存為20M,而最大可用塊為0.8M的話,則說明路由器內存中存在比較多的碎塊。
連續連續內存中沒有足夠大的可用快,這有可能導致嚴重的內存分配問題,如導致一個或者多個接口間歇性的丟失報文。在路由器內存中,允許存在一定的內存碎片。
到現在為止,還沒有哪一種內存管理技術說可以完全避免產生內存碎片。只是這個碎片要保證一個合理的值。
具體這個值是多少,也沒有人可以給出一個具體的標准。不過根據筆者的經驗,最好能夠保證可用塊的大小在可用內存的二分之一到三分之一之間。
當然可用塊大小跟可用內存越接近越好。
四、其實這個可用塊與可用內存之間的關系我們可以利用櫃子中的抽屜來表示。如一個櫃子可用容量雖然比較大,但是裡面劃分了大小不等的1000多個格子。每個格子的空間容量有限。
當有大的數據需要存儲時,整的容量是夠的,但是小格子的容量不夠。此時,就會發生報文丟失的問題。
此時看起來內存足夠用,可是此時內存中已經沒有連續的空間用來存儲數據。所以這些看起來比較大的可用內存,其實保存不了多少數據。
五、如果確定路由器內存中沒有過多的碎片,則網絡管理員就要考慮是否是因為CPU過載所導致報文丟失的。要查看CPU的使用率,可以利用SHOW PROCESS命令來查看路由器的CPU使用情況,通過這條命令,可以顯示出路由器CPU最近5秒、最近1分鐘、以及最近5分鐘的CPU使用率。由於 CPU的使用率一直在變化,故網絡管理員主要關系的是5分鐘之內的CPU平均使用率。
通常情況下,如果5分鐘之內的CPU使用率能夠保持在60%以下,最多不能夠超過70%,則說明路由器的CPU工作還是正常的。但是如果其CPU使用率達到了70%以上,則說明路由器的CPU使用過度了。
此時可以說明路由器接口報文丟失很可能是CPU過載所造成的。
六、如果確認路由器CPU過載,那麼網絡管員需要確認到底是哪一個進程占用了大量的內存。只有把這個罪魁禍首找出來,網絡管理員才能夠對症下藥,解決問題。如網絡管理員經過查詢發現是SRB BACKGROUND進程占用了大量的CPU,則就說明發生了網橋風暴。故要解決CPU過載問題,要達到這個目的,網絡管理員可以通過SHOW PROCESS MEMORY命令查詢路由器的內存分配信息。
通過執行這個命令,系統會反饋當前路由器內存的可用量、以使用量等信息。還會反映每個進程所占用的內存空間。如果某個進程所占用的內存與上面顯示的所占用的CPU都很大的話,則說明這個進程很有問題。網絡管理員要逐一排查這些可以的進程。
七、如有時候網絡管理員可以強制把某些耗用CPU資源大的進程關閉掉,然後測試一下報文丟失的情況是否有所改善。如果有明顯改善的話,那麼就找到問題的原因了。
此時網絡管理員就可以對症下藥,分析一下到底這個進程多對應的服務是什麼,為什麼會占用這麼多的CPU資源與內存資源。
如果可以的話,可以先把這個服務關閉掉,以減少報文丟失現象,保障其他服務的正常運作。等到查明問題的原因,修復好後再重新啟動。
在靈科路由器中采用了很多交換技術,如過程交換、快速交換、自治交換、硅交換等等,但是他們都依賴於報文。如果報文丟失的話,再怎麼高級的交換技術都將不起作用,如何防止報文丟失就至關重要。
當網絡管理員發現有報文丟失的情況,馬上要采取以上等措施找到報文丟失發生的原因,並積極采取措施盡早恢復故障。