Questions tagged «monitoring»

观察机器,系统和网络以发现问题并通知管理员的应用程序或设备。


7
聪明的Nagios警报方法
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 我们使用Nagios,当发生问题时我会收到SMS。许多其他系统管理员也可以获取文本。但是,人们获得nagios警报还有其他聪明/酷的方法吗?

5
等效于Ping检查端口是否打开
如何检查端口是否一直存在?例如,我可以使用 ping 192.168.1.1 -t > results.txt 这将连续ping 192.168.1.1,以便我可以对其进行监视。 是否可以使用与此等效的工具或命令? 目前,我使用telnet,但有时主机会断开连接。我需要Windows解决方案。


4
如何最好地监控logstash?
我已经在邮件列表上看到过几次这个问题,但是没有令人满意的答案。 如何最好地监视管道是否阻塞?客户端-> logstash-> elasticsearch。 Logstash尤其是elasticsearch容易出现资源匮乏的情况。他们俩都擅长从上次停站的地方接站,但是人们究竟是如何观看他们的观看者的呢? 欢迎意见。

2
即使我发送数据,石墨对所有数据点也显示“无”
我已经使用Nginx和PostgresSQL 通过Puppet(https://forge.puppetlabs.com/dwerder/graphite)安装了Graphite 。当我手动发送数据时,它将创建度量标准,但其所有数据点均为“无”(也称为null)。如果我运行Graphite附带的example-client.py,也会发生这种情况。 echo "jakub.test 42 $(date +%s)" | nc 0.0.0.0 2003 # Carbon listens at 2003 # A minute or so later: $ whisper-fetch.py --pretty /opt/graphite/storage/whisper/jakub/test.wsp | head -n1 Sun May 4 12:19:00 2014 None $ whisper-fetch.py --pretty /opt/graphite/storage/whisper/jakub/test.wsp | tail -n1 Mon May 5 12:09:00 2014 None $ …


3
Nagios在WAN上进行“监视”是否理想?
刚从一家新公司起步,我的第一个任务就是寻找内部监控系统的替代方案。 他们当前的解决方案是.Net应用程序,它可以检查WAN上的各种设备(因为它们是提供24/7支持/“维护”的IT咨询公司)。设备范围从路由器/交换机/打印机到MS服务器和服务。 在阅读了网站上无数的帖子并进行了广泛的搜索之后,似乎已经达成共识,那就是要使用某种Nagios / Munin混合。 这使我想到了一个问题: A)是否可以在公司本地运行Nagios服务器并通过WAN监视各种外部站点?(他们不希望在每个站点上都使用本地Nagios服务器,因为大多数站点相对较小(10-25个主机),站点数量也很大(75-100个))。 B)如果是,代理商将如何联系Nagios后端?通过SSH?HTTP? C)除了容易受到WAN链接故障的影响外,这种解决方案的直接缺点是什么? 感谢您提供任何反馈意见,对于任何误解,我都表示歉意,因为这对行业来说是相当陌生的。

4
Nagios远程监控:NRPE与。SSH协议
我们使用Nagios监视大量(〜130)服务器。我们监视每台服务器上的CPU,磁盘,RAM和其他一些东西。我一直使用SSH来运行远程命令,纯粹是因为它几乎不需要远程服务器上的其他配置,只需安装nagios-plugins,创建nagios用户并添加SSH密钥,所有这些我都已自动完成。一个shell脚本。我从未真正考虑过在NRPE上使用SSH的性能影响。 我对Nagios服务器上的负载没有太大的担心(它的功能可能过高,它从未超过10%的CPU),但是我们每30秒运行一次远程检查,每台服务器有5个不同的检查执行。我认为SSH每次检查都需要更多资源,但是有很大的不同吗?(IE的差异足以保证切换到NRPE)。 如果有帮助,我们将监视物理服务器(通常具有8、12或16个物理核心)和Amazon EC2中型/大型实例的混合。

1
如何管理大型集群上的Nagios依赖关系?
我使用的是相当大的nagios配置(约4000个服务),没有任何依赖关系。当出现问题时,这会导致大量的通知混乱。 我试图通过Nagios Dependencies寻找最佳实践,但是我在网上发现的只是一个简单的例子而已。我需要的是更深入的信息,以及有关如何管理此类配置文件的最佳实践。 示例:在包含100个服务器且每个服务器都监听apache的群集上,我正在监视apache进程和监听TCP端口80的数量。我想使一个依赖于另一个,但是dependent_hostgroup_name不能解决问题导致所有“检查过程”服务都依赖于每个“ check_http”服务。 问题是:如何管理依赖性?您是否使用脚本来生成它们?

5
我需要用更具可扩展性的东西来代替穆宁[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为服务器故障的主题。 5年前关闭。 我已经在多个服务器上使用munin多年,并取得了巨大的成功,但是在munin节点超过100个的情况下,当客户端上有负载时,处理就会超时。 我对cron作业和客户端进程数进行了一些缩放更改,并减少了运行的插件数,等等。但是我决定寻找一种具有更可扩展的体系结构的替代方案。 任何建议或经验都将受到欢迎。我基本上对服务器度量标准感兴趣,该度量标准可用于容量规划和诊断资源使用情况。(我们有nagios提醒)

2
ping的公共主机
为了让我的防火墙脚本确定我的ISP是否正常运行,我需要一些可靠的,地理位置分散的地址来ping通。 我可以只使用Google,Akamai等一些主要网站。但这似乎很不礼貌。这也是不可靠的,如果他们决定像许多其他站点一样开始阻止ICMP流量怎么办? 我更喜欢使用已经记录下来的主机,他们表示可以接受。是否有提供作为公共“ ping”目标的主机,许多公共NTP服务器提供其服务的方式? 列表或此类主机的循环DNS会很好,但是我怀疑这要求太多...

5
中小企业如何监控网络?
我在一家中型公司(超过100名员工)中工作。一直出现的问题是网络性能,尤其是Internet访问。 我们有大约70台或更多计算机,包括Mac OS X和Windows XP&7计算机。我们有几台服务器(Exchange服务器,PC文件服务器,MS SQL,Blackberry,FTP,Mac服务器等)。在服务器机房中,有四个主要的交换机,一个SonicWall防火墙以及可能有几个路由器,整个建筑物中散布着十几个左右的路由器。 网络结构已经有机地增长了很多年。据我所知,实际上还没有监控解决方案。当我们遇到网络问题(连接速度慢,数据包丢失等)时,我们的常规解决方案是重新启动某些硬件或让每位员工随便问问他们是否正在上传/下载任何大文件。 这确实是低效且耗时的,并且它不允许我们监视网络,无法主动解决潜在的问题。我想找到一种解决方案,使我可以实时监控公司范围内的网络使用情况,理想情况下,详细信息应下达到单个计算机。 考虑到设备和操作系统的大杂烩,设置某种监视解决方案的最佳方法是什么?硬件,软件是否正在重组我们的网络架构?



By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.