您如何监视监视服务器?


14

因此,我们在CentOS上运行Groundworks(与Nagios一起使用)以监视我们的各种服务器和进程。我将其设置为在事物达到警告或严重状态时自动发送电子邮件和SMS文本。通常,这很完美。但是,有两次我们在该服务器上的Postfix遇到了问题,Postfix决定停止发送电子邮件。最近的时间持续了4天,因为我们没人注意到。

这就引出了一个重要的问题:我应该如何监视我的监视服务器?


5
Quis custodiet ipsos custodes?
詹姆斯·L

h 少年。很好玩。
Organicveggie 2010年

谁看守人?:D
Florent Courtay 2010年

1
@organicveggie,监视服务器也是服务器...使用监视服务器监视监视服务器会遇到什么问题?
Pacerier

Answers:


12

当然,还有第二台监视服务器。第二个要简单得多,因为它要做的就是监视第一个。当然,它应该由主监视系统依次监视。

如果您的小组是具有单独的IT基础结构的较大组织的一部分,则您可以安排其他小组的监视服务来监视您的监视服务。

您还可以确保服务器每天发送“没问题”消息,并养成寻找它的习惯。(当然,这只有在您还没有被常规消息淹没的情况下才有效。)


14

其他人建议定期发出消息说一切正常,但我个人不同意。除非有问题,否则监视应该保持沉默,并且永远不要依赖用户注意到有问题的消息,例如“哦,几天之内我没有收到每天的电子邮件。” 特别是如果您有多个人对警报进行响应,则每个人都可能认为另一个人已经删除了每日的“我很好”消息。

我们有一个外部服务(其中有数百个,但是我们使用wormly)对监视服务器进行HTTP检查,以确保其正常运行并可以访问Internet。这是我们对其进行监控的主要考虑因素。然后,我们的Nagios服务器监视所有客户的Nagios服务器。

但是,您提出了一个很好的观点。我们可能应该添加一个HTTP URL来检查后缀队列,如果它显示异常数量的消息,这可能意味着它在队列中有任何内容,然后发出警报。另一个选择是对警报使用不同的方法,例如非SMTP SMS传递代理以及我们当前使用的SMTP。

但就我们而言,我不记得我们曾经有过邮件服务器死亡。当然,邮件服务器仅用于发送Nagios警报,因此配置非常简单,几乎不会更改。


2
常规的OK消息不是很有用:在没有刺激的情况下,您无法可靠地使人适应行为。
Tim Williscroft 2010年

@Tim:对不起,但是“没有刺激”并未描述未收到预期电子邮件的情况。在这种情况下,我相信我会被“激发”去调查为什么消息没有到达。但是也许就是我。:)
史蒂文

1
我认为我使用的心理术语并不代表您的意思。行为心理学和航空心理学有很多要告诉系统工程师。该战场在第二次世界大战中得到了很大的发展,目的是让18-20岁的机组人员驾驶最先进的飞机而不会坠毁,并且仍将注意力留在实际的军事任务上。这就是为什么飞机要有主警示灯,而不是“一切都好”的灯。TLDR(我认为这个词并不意味着您认为的意思)
Tim Williscroft 2010年

1
我强烈认为,除非有需要人类注意的东西,否则系统不应发出噪音。我们的注意力有限,计算机可以轻松地使我们不知所措,例如“我还活着!”。另外,所经历的事情并不能说明问题,这使人们想到忽略事情。我非常努力地确保当涉及到人类时,这是他们真正需要看到的东西。我与某人合作,他每天都有各种各样的日志供他审阅。当然,他太忙了,不能出去吃午饭了……
Sean Reifschneider 2010年

1
我同意服务不应发送太多消息,否则人们会迅速忽略它们。但是,如果监视系统设置正确,则不会收到很多消息。当然,我们有一个关于确认来自Groundworks / Nagios的警报的策略,该策略可以在一段时间内有效地停止消息。如果是长期停机,我们将禁用对系统或服务的监视。结果,每天的“我还活着”消息实际上是很合理的。
Organicveggie 2010年


2

对于监视服务器监视(在本例中为nagios),Pingdom或alertfox的免费或基本计划非常有效。


好建议。但是在这种情况下,无法在防火墙外部访问我们的监视服务器。因此,Pingdom和Alertfox并不真正为我们服务。
Organicveggie 2010年

1

第一件事:让它每天发送一次或两次“我还活着”消息。其次,我为此运行一台旧机器,它有一台GSM调制解调器,一台小型UPS等,并与主要监视服务器建立了专用(直接)连接。这对第三点也有帮助:确保定期检查监视系统的状态。小型辅助监视系统始终显示我办公室中主系统的状态页面。


1

如果您的监视服务器可以从Internet访问,则应该由外部提供商(例如websitepulse等)对其进行监视。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.