尽管它是一个老帖子,但现在因为我知道check_load阈值对于新手来说是头疼而已。
一个警告警报,如果CPU在5分钟内为70%,在10分钟内为60%,在15分钟内为50%。严重警报,如果CPU在5分钟内为90%,在10分钟内为80%,在15分钟内为70%。
*command[check_load]=/usr/local/nagios/libexec/check_load -w 0.7,0.6,0.5 -c 0.9,0.8,0.7*
关于CPU负载的所有发现:
什么是“负载”:维基百科说:
所有Unix和类似Unix的系统在内核中都会生成三个“平均负载”数的度量。用户可以通过运行uptime命令轻松地从Unix shell查询当前结果:
$ uptime
14:34:03 up 10:43, 4 users, load average: 0.06, 0.11, 0.09
根据以上输出平均负载:0.06, 0.11, 0.09
平均值(在单CPU系统上):
- 在最后一分钟,CPU负载不足6%
- 在最近5分钟内,CPU的负载不足11%
- 在过去15分钟内,CPU的负载不足9%
。
$ uptime
14:34:03 up 10:43, 4 users, load average: 1.73, 0.50, 7.98
以上1.73 0.50 7.98
在单CPU系统上的平均负载为:
- 在最后一分钟,CPU过载了73%(1个CPU具有1.73个可运行进程,因此0.73个进程必须等待一个回合)
- 在最近5分钟内,CPU的负载不足50%(无需等待任何进程)
- 在过去的15分钟内,CPU过载了698%(1个CPU具有7.98个可运行进程,因此6.98个进程必须等待回合)
Nagios阈值计算:
对于Nagios CPU负载设置,其中包括警告和严重提示:
y = c * p / 100
哪里:
y = nagios value
c = number of cores
p = wanted load procent
对于4核心系统:
time 5 min 10 min 15 min
warning: 90% 70% 50%
critical: 100% 80% 60%
command[check_load]=/usr/local/nagios/libexec/check_load -w 3.6,2.8,2.0 -c 4.0,3.2,2.4
对于单核系统:
y = p / 100
哪里:
y = nagios value
p = wanted load procent
time 5 min 10 min 15 min
warning: 70% 60% 50%
critical: 90% 80% 70%
command[check_load]=/usr/local/nagios/libexec/check_load -w 0.7,0.6,0.5 -c 0.9,0.8,0.7
Gunther博士
撰写的有关CPU负载分析的出色白皮书http://www.teamquest.com/pdfs/whitepaper/ldavg1.pdf在此在线文章中,Gunther博士深入研究了UNIX内核,以了解负载平均方式(计算“ LA Triplets”)以及它们作为容量规划指标的适用性。
standard
或tested
价值。这取决于您预期的服务器工作量。如果期望高负载,则应增加值。否则,您的服务器将始终处于严重状态。