Questions tagged «nagios»

Nagios是一个监视系统,使组织能够在影响关键业务流程之前识别和解决IT基础结构问题。

2
使ssh真正安静
我已经完成了编写nagios脚本的一半,而SSH却给我带来了烦恼。 根据手册页: -q Quiet mode. Causes all warning and diagnostic messages to be suppressed. 但是,如果我启用了静默标志,然后传递了无效的端口,我仍然会收到错误消息: $ ssh user@localhost -q -p test Bad port 'test' 这是一个问题,因为那将使该消息成为第一行,而这正是Nagios抓住的。在!= 0从ssh 提取退出代码后,我需要输出类似“警告| SSH错误”的内容,但是我可以输出的第一行将是第2行。 如何使SSH TRULY安静? 注意:我不确定是否要在服务器故障,超级用户或stackoverflow上发布此问题。我使用serverfault的原因是,用户群可能最熟悉cli SSH和cli脚本解决方法。
15 ssh  bash  nagios 

5
如何判断Windows是否以安全模式运行?
我有一台Windows服务器,有时更新后有时会重新引导到安全模式。我正在解决该问题,但我真正想知道的是如何检查Windows是否以安全模式运行。 理想情况下,我想将其合并到一个脚本中,该脚本会将状态显示为被动检查发送到我们的Nagios框中。 是否可以使用某些环境变量或通过命令行获取此信息的某种方式?

6
您如何监视监视服务器?
因此,我们在CentOS上运行Groundworks(与Nagios一起使用)以监视我们的各种服务器和进程。我将其设置为在事物达到警告或严重状态时自动发送电子邮件和SMS文本。通常,这很完美。但是,有两次我们在该服务器上的Postfix遇到了问题,Postfix决定停止发送电子邮件。最近的时间持续了4天,因为我们没人注意到。 这就引出了一个重要的问题:我应该如何监视我的监视服务器?

6
check_load使用哪些警告和关键值?
现在我正在使用这些值: # y = c * p / 100 # y: nagios value # c: number of cores # p: wanted load procent # 4 cores # time 5 minutes 10 minutes 15 minutes # warning: 90% 70% 50% # critical: 100% 80% 60% command[check_load]=/usr/local/nagios/libexec/check_load -w 3.6,2.8,2.0 -c 4.0,3.2,2.4 但是这些值几乎是随机选择的。 …

3
我如何取消Nagios的计划内停机时间
我有一台Nagios 3.5.1监视器来监视一堆服务器。在执行诸如Drupal或Wordpress核心升级之类的操作时,我关闭了站点并将Nagios设置为计划的停机时间。 有时我会在默认的2小时内完成,并且不想忽略停机。如何告知Nagios我已完成并取消计划的停机时间?
12 nagios 

3
将所有传出邮件发送到/ dev / null
使用sendmail,您将如何将所有传出邮件发送到/ dev / null或仅阻止电子邮件排队或完全发送出去? 在开发nagios框上,我要防止发送邮件,以使通知不会发出。停止出站邮件将使我能够按原样测试nagios配置并防止虚假通知。
12 sendmail  nagios 

2
地理分布,容错和“智能”的应用程序/主机监视系统
问候, 我想问一下集体对分布式监视系统的看法和看法,您使用什么,知道哪些可能会打扰我? 要求非常复杂; 没有单点故障。真。我很认真!需要能够容忍“主”和“工作者”的单/多节点故障,并且您可能会假设没有监视位置(“站点”)中有多个节点,或者它们在同一网络上。因此,这可能排除了传统的HA技术,例如DRBD或Keepalive。 分布式逻辑,我想在多个数据中心和多个洲的多个网络中部署5个以上的节点。我希望从客户的角度看待我的网络和应用程序的“鸟瞰图”,当拥有50多个节点甚至500多个节点时,监控逻辑的加分点不会陷入困境。 需要能够处理相当合理数量的主机/服务检查(如La Nagios),据估算,假设有1500-2500台主机,每台主机30项服务。如果增加更多的监视节点使您能够相对线性地扩展,那将是非常不错的,也许在5年的时间里,我可能希望监视5000个主机和每个主机40个服务!加上我上面关于“分布式逻辑”的注释,很高兴地说: 在正常情况下,这些检查必须在$ n或n%的监视节点上运行。 如果检测到故障,请在另外$ n或n%的节点上运行检查,将结果关联起来,然后使用它们来确定是否已满足发出警报的条件。 图形和管理友好的功能。我们需要跟踪我们的SLA,并且了解我们的“高可用性”应用程序是否全天候24x7运行是很有用的。理想情况下,您建议的解决方案应该以最少的工作量“开箱即用”地报告。 必须具有可靠的API或插件系统才能开发定制检查。 需要对警报保持明智。我不想一定知道(通过SMS,凌晨3点!)一个监视节点认为我的核心路由器已关闭。我也想知道,如果一个定义了它们的百分比同意的东西时髦是要去;)本质上就是我这里所说的“法定”的逻辑,或理智的分布式疯狂的应用程序! 我愿意考虑商业和开源两种选择,尽管我更愿意避免花费数百万英镑的软件:-)我也愿意接受可能没有任何东西可以解决所有这些问题,但是想问一下集体。 在考虑监视节点及其位置时,请记住,其中大多数将是随机ISP网络上的专用服务器,因此很大程度上超出了我的控制范围。依赖BGP提要和其他复杂网络滑稽动作的解决方案可能不适合。 我还应该指出,我过去曾经评估,部署或大量使用/定制了包括Nagios,Zabbix和朋友在内的大多数开放源代码版本-它们虽然不是很差的工具,但总体上却落伍了。分布式”方面,尤其是在我的问题和“智能”警报中讨论的逻辑方面。 很高兴阐明任何要求。欢呼的家伙和女友:-)
12 monitoring  nagios  sla 

6
通用的Nagios插件,用于检查特定进程/服务是否正在运行?
我在http://exchange.nagios.org上看到没有插件可以检查sendmail,xinetd,automount,ypserv,ypbind,mailscanner,mcafee,clamav,samba服务器和openvpn是否正在运行。 当然,所有这些程序都应该是稳定的程序,但是它们很关键,因此我想检查一下它们是否正在运行。 题 是否存在用于检查特定过程的通用插件?
12 linux  ubuntu  centos  nagios 


8
Nagios和Open NMS之间的主要区别是什么?
我希望向经理介绍一个全面的监视系统,并且一直在考虑使用OpenNMS。但是,我在这里看到了对Nagios的热烈赞扬,我希望有经验的人可以帮助说明我的主要差异。他们的重点有所不同,还是仅仅是竞争对手? 如果有背景帮助,我们可以运行6台本地服务器(文件服务器,PBX,代理,应用程序等)和2台非现场服务器(网站/开发),以及几个交换机和路由器。我们安装的监视服务将在运行freeBSD的单独转换桌面上运行。我们所有的东西都可以运行Linux或BSD衍生产品。 我们希望不花钱来实现这一目标(叹气)。 谢谢你的帮助。 编辑 看来openNMS提供了更接近我想要的更全面的解决方案。但是,由于它是用Java编写的,并且端口尚未在官方端口树中,因此已被否决。现在开始,我的Nagios不仅会比MRTG运动更好。感谢您的快速回复。 -机会

4
如何检查上一次运行yum更新的时间
有没有一种规范的方法可以找出yum update系统上次运行的时间? 我们的设置是,我们有运行自动更新的登台服务器,并且只要它们不会发生故障,我们将每月大约一次手动更新生产服务器(除非进行重要更新)。(我是手动说的,理想情况下,我想手动触发所有对象的更新,但这是另一个问题)。 但是您会很忙,任务延误等。因此,我想设置一个nagios检查,如果我们将其保留太久,它将开始困扰我们。 搜索网络还没到我的头。仔细研究一下系统,到目前为止我发现的最好的东西是: grep Updated /var/log/yum.log | tail -1 | cut -d' ' -f 1-2 这给了我类似的东西Mar 12,然后我可以将其转换为日期。关于日期是今年还是去年有一些小麻烦,我还需要检查一下/var/log/yum.log.1logrotate之后是否立即检查。但这只是脚本详细信息。 当然,可以通过更新单个软件包而不是常规更新来“欺骗”。 那么,还有什么更规范的方法可以查看yum update运行时间? 编辑:我现在编写了一个Nagios NRPE插件,该插件使用了我在问题中提出的想法。您可以从https://github.com/aptivate/check_yum_last_update获取它

5
使用EC2时,如何跟上Nagios / Capistrano配置?
我将Amazon EC2用于我的移动应用程序。根据给定时间的应用程序负载,我可能会生成新的实例,然后在负载较低时将其删除以节省成本。 在这样一个动态环境下,如何与Nagios配置保持一致?当涉及托管硬件时,配置文件是可预测的。在这种情况下,需要添加Nagios,Capistrano和许多其他配置文件。Capistrano需要知道将新版本部署到应用服务器的位置。Nagios需要知道要删除现有实例或添加新实例进行监视。Nagios还需要知道节点是否被有意关闭或主机是否由于错误而关闭。 VPS /动态实例的精彩世界是如何做到的?

9
Nagios配置GUI [关闭]
关闭。这个问题是题外话。它当前不接受答案。 5年前关闭。 已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 我们已经为网络上的服务实现了Nagios,并且运行良好。通知非常好,并且广泛的配置选项非常方便。到目前为止,我们已经通过直接修改文件来手动完成所有配置。 当我们开始向其他一些管理员开放这些内容时,我想实现一个GUI,它将减少发生错误的可能性。我已经签出了几个不同的GUI项目,到目前为止,似乎NagiosQL和NConf是迄今为止的主要竞争者。 两者之间是否有任何建议,或者应该考虑其他建议?关于安装和使用的故事,“陷阱”以及在决定中可能有用的提示如何?

5
Nagios服务器最佳做法?
我运行中型Nagios服务器。它目前监视着约40台具有180种服务的服务器,并且每天都在增长。 我从旧的Nagios设置迁移而来,该设置以非常深奥的方式配置,迫使我从头开始重新配置所有内容。 既然服务器已经在运行并且可以满足我们所需的大部分功能,我正在研究使其更具可扩展性。当前,每个主机是中的自己文件/etc/nagios/hosts/,每个主机在同一文件中具有所有服务。这显然不是最佳选择,但也不能将我的所有配置混淆到数百个不同的文件中。 所以我的问题是:对于任何经验丰富的Nagios管理员而言,在不使配置过于复杂的情况下利用主机组/服务组的最佳方法是什么?

1
对于设置了扩展属性位的文件,为什么getfattr不显示任何内容?
我已经在CentOS 6.2上运行了Nagios XI安装,并且想要修改备份脚本。我注意到为该Shell脚本设置了扩展属性位,因此我想确保在进行更改时不要弄乱任何东西。我进行了实验,发现“ cp -p”不会保留此设置(有关此更新,请参见评论)。我是Linux扩展属性的新手,发现有一个命令'getfattr'应该显示扩展属性,但是此文件不显示任何内容。 cd /usr/local/nagiosxi/scripts ll backup_xi.sh -rwxr-x---. 1 nagios nagios 2757 Jul 3 10:03 backup_xi.sh* # nothing is displayed by 'getfattr': getfattr -d backup_xi.sh # and nothing special seems to be present according to 'getfacl': getfacl backup_xi.sh # file: backup_xi.sh # owner: nagios # group: nagios user::rwx …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.