Linux平均負載Load問題的詳解

不言
發布: 2019-03-12 17:24:10
轉載
2714 人瀏覽過

這篇文章帶給大家的內容是關於Linux平均負載Load問題的詳解,有一定的參考價值,有需要的朋友可以參考一下,希望對你有幫助。

有一回面試,面試官提了一個問題,cpu 使用率不高,但是 Load (平均負荷) 很高,你如何找出問題?

當時我不明白 Load 的意思,面試官解釋這個指標反映不可中斷狀態的進程比較多。我遂根據過往後端開發經驗,回答可能係統中io 阻塞比較多,多發於網絡io 問題,用命令 netstat -tnp 看看tcp 連接中time_wait 狀態多不多...

#我知道我的回答很片面,事後複習,做筆記。

什麼是平均負載

熟悉 Linux 者知道,使用 top uptime 指令可以檢視 load average 指標。

使用 man uptime 查看Load average 解釋:

System load averages is the average number of processes that are either in a runnable or uninterruptable state. A process in ables or waiting to use the CPU. A process in uninterruptable state is waiting for some I/O access, eg waiting for disk. The averages are taken over the three time intervals. Load averages system not avers ined the number intervals. Load avernorage system not avers injare not avers in the not avers in the not avers in the nad avers in. so a load average of 1 means a single CPU system is loaded all the time while on a 4 CPU system it means it was idle 75% of the time.

理解關鍵地方,平均負載是指,在單位時間內,系統中處於 可運作狀態 與 不可中斷狀態 的平均行程數,簡稱平均活躍行程數。值得注意的是,它與CPU 使用率沒有直接關係

使用指令 ps aux 可以檢視進程的狀態stat,如本文要注意的:

R 狀態,可運作狀態( Running / Runnable ),正在使用CPU 或正在等待CPU 的進程D 狀態,不可中斷狀態( Uninterruptitle Sleep, 又稱Disk Sleep ),正處於內核態關鍵流程中的進程,並且是不可中斷的。

D 狀態為何不可打斷呢,舉個例子,系統調用起硬體設備的I/O 響應,為了保證數據的一致性,在磁碟設備返回數據前,它是不能倍其他進程或者中斷打斷的,如果被打斷,就容易造成磁碟資料與流程資料不一致的問題。於是,不可中斷(D)狀態是系統對程序與硬體設備的一種保護機制。

平均活躍進程數,嚴格意義上,它是活躍進程數的指數衰減平均值(某個量的下降速度和它的值成比例)。通常情況下,理解為單位時間上的活躍進程數即可。

CPU 使用率與平衡負載

從CPU 角度來說,Load average 只是反映單位時間內佔用CPU 的進程數量,而CPU 使用率與進程數沒有直接關係,我們可以使用指令 top vmstat 查看CPU 的使用率,有以下幾個指標:

%us:表示使用者空間程式的cpu使用率(沒有透過nice調度)%sy:表示系統空間的cpu使用率,主要是內核程式。 %ni:表示用戶空間且透過nice調度過的程式的cpu使用率。 %id:空閒cpu%wa:cpu運作時在等待io的時間%hi:cpu處理硬中斷的數量%si:cpu處理軟中斷的數量%st:被虛擬機偷走的cpu

如何衡量合理的平均負載

一般來講,Load average 低於CPU 數量的話,機器性能滿足服務需求,超出一些也沒關係,Load average 不直接代表CPU 利用率,可能是io 阻塞比較多。當 Load average 高於 CPU 數量的 70%,就可能導致進程回應變慢,進而影響服務的正常功能。

從歷史變化量來看

一般來講,top uptime 提供 load average 三個時間點的指標,分別是:1分鐘、5分鐘、15分鐘。這反映了系統最近的狀態變化趨勢。在實際生產環境中,我們需要做長期的監控記錄。如果有異常的數值變化,例如平均負載數是CPU的兩倍,則需要分析調查問題。

從平衡負載與CPU 使用率這兩類指標綜合分析

兩類指標的不同,組合出下列幾種可能情況:

Load average 高,CPU use 高,要么運行了CPU 密集型進程(線程),要么有大量等待CPU 的進程(線程)調度Load average 高,CPU use 底,運行了IO 密集型進程兩者都比較低,正常Load average 底, CPU use 高,這是不存在的

模擬案例與工具

我們如何分析平衡負載與CPU 使用率這兩類指標不同組合的案例,尋找造成指標變化的來源?

以下環境為Linux Arch 4.19 / 4 CPU / 8G Memory

工具清單

stress 系統壓力測試工具

sysstat 效能分析工具包:

mpstat 多核心 CPU 分析效能工具,mp 的意思是 multi processors (多處理器)pidstat 進程效能分析工具,pid 意為進程 ID。它用於查看進程的CPU、記憶體、I/O以及上下文切換等指標

#模擬場景

#使用stress 可以模擬以下場景

CPU密集型進程

# 模拟一个进程, 对 cpu 使用率 100%,限时 600s stress --cpu 1 --timeout 600
登入後複製

IO 密集型進程

stress 的 -i 選項,spawn N workers spinning on sync()

# 模拟一个进程不停的执行 sync stress -i 1 --timeout 600
登入後複製
大量進程的場景
# 模拟16个进程, 对 cpu 使用率 100%,限时 600s stress --cpu 16 --timeout 600
登入後複製

工具指標

mpstat -P ALL 5 監控所有CPU,每隔5秒輸出一組數據,注意指標 %usr 使用率,%iowait IO 阻塞時間,從這可以判斷是CPU 密集型還是IO 密集型pidstat - u 5 1 統計間隔5秒內,使用過CPU 的進程的數據,注意指標 %usr 使用率,%wait 等待使用CPU 的時間,從這可以判斷是否進程(線程)過多

以上是Linux平均負載Load問題的詳解的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:segmentfault.com
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
作者最新文章
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板
關於我們 免責聲明 Sitemap
PHP中文網:公益線上PHP培訓,幫助PHP學習者快速成長!