因此,我们在CentOS上运行Groundworks(与Nagios一起使用)以监视我们的各种服务器和进程。我将其设置为在事物达到警告或严重状态时自动发送电子邮件和SMS文本。通常,这很完美。但是,有两次我们在该服务器上的Postfix遇到了问题,Postfix决定停止发送电子邮件。最近的时间持续了4天,因为我们没人注意到。
这就引出了一个重要的问题:我应该如何监视我的监视服务器?
因此,我们在CentOS上运行Groundworks(与Nagios一起使用)以监视我们的各种服务器和进程。我将其设置为在事物达到警告或严重状态时自动发送电子邮件和SMS文本。通常,这很完美。但是,有两次我们在该服务器上的Postfix遇到了问题,Postfix决定停止发送电子邮件。最近的时间持续了4天,因为我们没人注意到。
这就引出了一个重要的问题:我应该如何监视我的监视服务器?
Answers:
其他人建议定期发出消息说一切正常,但我个人不同意。除非有问题,否则监视应该保持沉默,并且永远不要依赖用户注意到有问题的消息,例如“哦,几天之内我没有收到每天的电子邮件。” 特别是如果您有多个人对警报进行响应,则每个人都可能认为另一个人已经删除了每日的“我很好”消息。
我们有一个外部服务(其中有数百个,但是我们使用wormly)对监视服务器进行HTTP检查,以确保其正常运行并可以访问Internet。这是我们对其进行监控的主要考虑因素。然后,我们的Nagios服务器监视所有客户的Nagios服务器。
但是,您提出了一个很好的观点。我们可能应该添加一个HTTP URL来检查后缀队列,如果它显示异常数量的消息,这可能意味着它在队列中有任何内容,然后发出警报。另一个选择是对警报使用不同的方法,例如非SMTP SMS传递代理以及我们当前使用的SMTP。
但就我们而言,我不记得我们曾经有过邮件服务器死亡。当然,邮件服务器仅用于发送Nagios警报,因此配置非常简单,几乎不会更改。
显然,您的postfix也应该受到监视,但这就是另一个主题;)
我将Nagios checker插件用于Firefox,它始终在我经常使用的任何计算机上的状态栏中运行。
另外,我在外部主机上有一个自定义脚本,可对nagios主机执行ping操作,并在SMS不响应ping时发送SMS。
到目前为止(超过5年),一切正常(敲击木头)。
对于监视服务器监视(在本例中为nagios),Pingdom或alertfox的免费或基本计划非常有效。