萬盛學電腦網

 萬盛學電腦網 >> 服務器教程 >> 解析Linux系統的平均負載概念

解析Linux系統的平均負載概念

   一、什麼是系統平均負載(Load average)?

  在Linux系統中,uptime、w、top等命令都會有系統平均負載load average的輸出,那麼什麼是系統平均負載呢?

  系統平均負載被定義為在特定時間間隔內運行隊列中的平均進程樹。如果一個進程滿足以下條件則其就會位於運行隊列中:

  - 它沒有在等待I/O操作的結果

  - 它沒有主動進入等待狀態(也就是沒有調用'wait')

  - 沒有被停止(例如:等待終止)

  例如:

  代碼如下:

  [root@opendigest root]# uptime

  7:51pm up 2 days, 5:43, 2 users, load average: 8.13, 5.90, 4.94

  命令輸出的最後內容表示在過去的1、5、15分鐘內運行隊列中的平均進程數量。

  一般來說只要每個CPU的當前活動進程數不大於3那麼系統的性能就是良好的,如果每個CPU的任務數大於5,那麼就表示這台機器的性能有嚴重問題。對於上面的例子來說,假設系統有兩個CPU,那麼其每個CPU的當前任務數為:8.13/2=4.065。這表示該系統的性能是可以接受的。

  二、Load average的算法

  上面的輸出數據是每隔5秒鐘檢查一次活躍的進程數,然後根據這個數值算出來的。如果這個數除以CPU的數目,結果高於5的時候就表明系統在超負荷運轉了。其算法(摘自Linux 2.4的內核代碼)如下:

  文件: include/linux/sched.h:

  代碼如下:

  #define FSHIFT 11 /* nr of bits of precision */

  #define FIXED_1 (1<#define LOAD_FREQ (5*HZ) /* 5 sec intervals */

  #define EXP_1 1884 /* 1/exp(5sec/1min) as fixed-point, 2048/pow(exp(1), 5.0/60) */

  #define EXP_5 2014 /* 1/exp(5sec/5min), 2048/pow(exp(1), 5.0/300) */

  #define EXP_15 2037 /* 1/exp(5sec/15min), 2048/pow(exp(1), 5.0/900) */

  #define CALC_LOAD(load,exp,n) \

  load *= exp; \

  load += n*(FIXED_1-exp); \

  load >>= FSHIFT;

  文件: kernel/timer.c:

  代碼如下:

  unsigned long avenrun[3];

  static inline void calc_load(unsigned long ticks)

  {

  unsigned long active_tasks; /* fixed-point */

  static int count = LOAD_FREQ;

  count -= ticks;

  if (count < 0) {

  count += LOAD_FREQ;

  active_tasks = count_active_tasks();

  CALC_LOAD(avenrun[0], EXP_1, active_tasks);

  CALC_LOAD(avenrun[1], EXP_5, active_tasks);

  CALC_LOAD(avenrun[2], EXP_15, active_tasks);

  }

  }

  文件: fs/proc/proc_misc.c:

  代碼如下:

  #define LOAD_INT(x) ((x) >> FSHIFT)

  #define LOAD_FRAC(x) LOAD_INT(((x) & (FIXED_1-1)) * 100)

  static int loadavg_read_proc(char *page, char **start, off_t off,

  int count, int *eof, void *data)

  {

  int a, b, c;

  int len;

  a = avenrun[0] + (FIXED_1/200);

  b = avenrun[1] + (FIXED_1/200);

  c = avenrun[2] + (FIXED_1/200);

  len = sprintf(page,"%d.%02d %d.%02d %d.%02d %ld/%d %d\n",

  LOAD_INT(a), LOAD_FRAC(a),

  LOAD_INT(b), LOAD_FRAC(b),

  LOAD_INT(c), LOAD_FRAC(c),

  nr_running(), nr_threads, last_pid);

  return proc_calc_metrics(page, start, off, count, eof, len);

  }

  三、/proc/loadavg 各項數據的含義

  /proc文件系統是一個虛擬的文件系統,不占用磁盤空間,它反映了當前操作系統在內存中的運行情況,查看/proc下的文件可以聊寄到系統的運行狀態。查看系統平均負載使用“cat /proc/loadavg”命令,輸出結果如下:

  0.27 0.36 0.37 4/83 4828/

  前三個數字大家都知道,是1、5、15分鐘內的平均進程數(有人認為是系統負荷的百分比,其實不然,有些時候可以看到200甚至更多)。後面兩個呢,一個的分子是正在運行的進程數,分母是進程總數;另一個是最近運行的進程ID號。

  四、查看系統平均負載的常用命令

  1、

  代碼如下:

  cat /proc/loadavg

  2、uptime

  名稱: uptime

  使用權限: 所有使用者

  使用方式: uptime [-V]

  說明: uptime 提供使用者下面的資訊,不需其他參數:

  現在的時間 系統開機運轉到現在經過的時間 連線的使用者數量 最近一分鐘,五分鐘和十五分鐘的系統負載

  參數: -V 顯示版本資訊。

  范例: uptime

  其結果為:

  代碼如下:

  10:41am up 5 days, 10 min, 1 users, load average: 0.00, 0.00, 1.99

  3、w

  功能說明:顯示目前登入系統的用戶信息。

  語  法:w [-fhlsuV][用戶名稱]

  補充說明:執行這項指令可得知目前登入系統的用戶有那些人,以及他們正在執行的程序。單獨執行w

  指令會顯示所有的用戶,您也可指定用戶名稱,僅顯示某位用戶的相關信息。

  參  數:

  -f  開啟或關閉顯示用戶從何處登入系統。

  -h  不顯示各欄位的標題信息列。

  -l  使用詳細格式列表,此為預設值。

  -s  使用簡潔格式列表,不顯示用戶登入時間,終端機階段作業和程序所耗費的CPU時間。

  -u  忽略執行程序的名稱,以及該程序耗費CPU時間的信息。

  -V  顯示版本信息。

  4、top

  功能說明:顯示,管理執行中的程序。

  語  法:top [bciqsS][d <間隔秒數>][n <執行次數>]

  補充說明:執行top指令可顯示目前正在系統中執行的程序,並通過它所提供的互動式界面,用熱鍵加以管理。

  參  數:

  b  使用批處理模式。

  c  列出程序時,顯示每個程序的完整指令,包括指令名稱,路徑和參數等相關信息。

  d<間隔秒數>  設置top監控程序執行狀況的間隔時間,單位以秒計算。

  i  執行top指令時,忽略閒置或是已成為Zombie的程序。

  n<執行次數>  設置監控信息的更新次數。

  q  持續監控程序執行的狀況。

  s  使用保密模式,消除互動模式下的潛在危機。

  S  使用累計模式,其效果類似ps指令的"-S"參數。

  5、tload

  功能說明:顯示系統負載狀況。

  語  法:tload [-V][-d <間隔秒數>][-s <刻度大小>][終端機編號]

  補充說明:tload指令使用ASCII字符簡單地以文字模式顯示系統負載狀態。假設不給予終端機編號,則會在執行tload指令的終端機顯示負載情形。

  參  數:

  -d<間隔秒數>  設置tload檢測系統負載的間隔時間,單位以秒計算。

  -s<刻度大小>  設置圖表的垂直刻度大小,單位以列計算。

  -V  顯示版本信息。

  四、系統平均負載-進階解釋

  為了更好地理解系統負載,我們用交通流量來做類比。

  1、單核CPU - 單車道 - 數字在0.00-1.00之間正常

  路況管理員會告知司機,如果前面比較擁堵,那司機就要等待,如果前面一路暢通,那麼司機就可以駕車直接開過。

2015123103450043.png (418×173)

  具體來說:

  0.00-1.00 之間的數字表示此時路況非常良好,沒有擁堵,車輛可以毫無阻礙地通過。

  1.00 表示道路還算正常,但有可能會惡化並造成擁堵。此時系統已經沒有多余的資源了,管理員需要進行優化。

  1.00-*** 表示路況不太好了,如果到達2.00表示有橋上車輛一倍數目的車輛正在等待。這種情況你必須進行檢查了。

  2、多核CPU - 多車道 - 數字/CPU核數 在0.00-1.00之間正常

2015123103521166.png (478×65)

  多核CPU的話,滿負荷狀態的數字為 "1.00 * CPU核數",即雙核CPU為2.00,四核CPU為4.00。

  3、安全的系統平均負載

  作者認為單核負載在0.7以下是安全的,超過0.7就需要進行優化了。

  4、應該看哪一個數字,1分鐘,5分鐘還是15分鐘?

  作者認為看5分鐘和15分鐘的比較好,即後面2個數字。

  5、怎樣知道我的CPU是幾核呢?

  使用以下命令可以直接獲得CPU核心數目

  復制代碼

  代碼如下:

  grep 'model name' /proc/cpuinfo | wc -l

  結論

  取得CPU核心數目N,觀察後面2個數字,用數字/N,如果得到的值小於0.7即可無憂。

copyright © 萬盛學電腦網 all rights reserved