Questions tagged «monitoring»

观察机器,系统和网络以发现问题并通知管理员的应用程序或设备。

2
如何查找给定进程的.pid文件
我正在设置monit,并希望监视给定的python应用程序。Monit通过查看进程的.pid文件来完成此操作,但是我不知道它在哪里。 我也尝试创建自己的简单可执行文件并运行它-在这里我也无法弄清楚.pid文件的创建位置。 并且所有进程都有一个.pid文件吗?
15 linux  monitoring  monit  pid 

2
PID更改时禁用Monit警报
当您通过Monit的pid监视进程时,例如: check process blop with pidfile /.../blop.pid start program = "..." stop program = "..." 更改pidfile时,您会收到警报。 您如何禁用此警报?例如,如果您只想知道何时无法重新启动该进程。


4
如何实际监控带宽使用情况
我有一个小型的(windows)网络,上面有几个人。 我们可以通过BT路由器访问互联网 一般来说,一切都很好,但有时,我们似乎会经历带宽的巨大损失。 我可能正遭受僵尸PC或运行洪流软件的用户的困扰……或者我可能只是受到ISP的某种限制? 我想找出正在发生的事情。 是否有一个简单的工具可以运行给我一个真实的世界(哪个PC上的哪个应用程序)在给定点使用所有带宽?

2
查找短暂的TCP连接所有者进程
tcpdump在与apache服务器的本地连接上运行时,我发现TCP连接正在建立,并每2秒立即关闭一次。我如何找到造成这些问题的过程?netstat -ctp没有帮助,连接速度太快,并且TIME_WAIT的进程标识符未显示。 他们原来是haproxy探针,我可以通过进行验证strace,但是我仍然不知道有什么方法可以首先确定haproxy。



2
在基于Linux的数据中心中检测时间漂移的策略是什么?
在所有基于Linux的数据中心中检测时间漂移的策略是什么?这个问题比起初看起来要困难得多。 时间漂移会对某些应用程序造成严重问题,而且即使安装了NTP,通常也会由于以下(以及更多)原因而导致失败: NTP未正确设置为在重新启动时自动重新启动。 服务器上的设置不正确,因此它指向的时间服务器不可达或不准确。 主时间服务器无法访问,并且所有与其同步的服务器现在正在同步到不可靠的源。 我想要一种检测所有单个服务器是否正确的方法。请记住,带有测试脚本/应用程序的服务器可能不正确。
14 linux  monitoring  ntp  time 

6
您如何监视监视服务器?
因此,我们在CentOS上运行Groundworks(与Nagios一起使用)以监视我们的各种服务器和进程。我将其设置为在事物达到警告或严重状态时自动发送电子邮件和SMS文本。通常,这很完美。但是,有两次我们在该服务器上的Postfix遇到了问题,Postfix决定停止发送电子邮件。最近的时间持续了4天,因为我们没人注意到。 这就引出了一个重要的问题:我应该如何监视我的监视服务器?


16
实时监视MS Windows服务器及其服务
我们的监控办公室里有一堆大型高清电视,它们监视着我们所有的生产设备。 我们正在监视: 思科路由器 惠普开关 HP Proliant服务器 Windows 2003 IIS SQL服务器 目前我们使用 Nagios的正常运行时间/可用性和警报发送 仙人掌用于带宽使用 在Vista上运行以提高服务器性能的Perfmon 其他工具和我们自己的自定义代码的组合,以监视我们实际的应用程序性能。 除了Perfmon以外,所有这些都很好-它提供了我们想要的-即屏幕上的实时图表,记录某些性能计数器等-唯一的问题是设置它确实是一件繁琐的事情。如果重新启动运行Perfmon的Vista PC(通常是由于Windows Update),则重新设置所有计数器将花费一些时间-实际上对于办公室中的某个人来说,是一两个小时的工作量…… 任何人都知道一种方法:1.添加Perfmon计数器的脚本2.具有图形输出和WMI / windows计数器访问权限的另一个工具。 谢谢 麦克风

4
大规模日志传输和聚合
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 您如何分析UNIX / Linux计算机上的日志文件?我们运行数百台服务器,这些服务器都直接或通过syslog生成自己的日志文件。我正在寻找一个不错的解决方案来汇总这些信息并挑选重要事件。该问题分为三个部分: 1)消息传输 经典方法是使用syslog将消息记录到远程主机。这对于登录到syslog的应用程序效果很好,但对写入本地文件的应用程序则没什么用。解决方案可能包括使应用程序登录到与程序连接的FIFO中,以使用syslog发送消息,或者编写一些东西将grep本地文件并将输出发送到中央syslog主机。但是,如果麻烦编写工具将消息发送到syslog中,那么我们最好用Facebook的Scribe这样的东西代替syslog来替代全部内容,这样更好吗? 2)消息聚合 日志条目似乎属于以下两种类型之一:每个主机和每个服务。每主机消息是在一台计算机上发生的消息。考虑磁盘故障或可疑登录。每服务消息出现在大多数或所有运行服务的主机上。例如,我们想知道Apache何时发现SSI错误,但我们不希望100台计算机中出现相同的错误。在所有情况下,我们只希望看到每种类型的消息中的一种:我们不希望10条消息表明同一磁盘已发生故障,并且每次击破SSI时我们都不需要消息。 解决此问题的一种方法是将同一类型的多个消息聚合到每个主机上,然后将消息发送到中央服务器,然后将相同类型的消息聚合到一个整体事件中。SER可以做到这一点,但是使用起来很尴尬。即使经过几天的摆弄,我也只能使用基本的聚合,并且必须不断查找SER用于关联事件的逻辑。它是功能强大但棘手的东西:我需要我的同事可以在最短时间内获取和使用的东西。SER规则不符合该要求。 3)生成警报 当有趣的事情发生时,我们如何告诉管理员?邮寄群组收件箱?注入Nagios吗? 那么,您如何解决这个问题?我不希望盘子里有答案。我可以自己制定细节,但是就什么是常见问题进行一些高级讨论会很棒。目前,我们正在使用大量的cron作业,syslog和谁知道还能找到事件的人。这是不可扩展的,不可维护的或灵活的,因此我们错过了很多本不应该的东西。 已更新:我们已经在使用Nagios进行监视,这对于检测到关闭的主机/测试服务/等非常有用,但对抓取日志文件的用处较小。我知道有一些用于Nagios的日志插件,但是我对比每主机警报更具可扩展性和层次性的东西感兴趣。

1
如何设置监控磁盘空间的监视器
我在服务器上使用monit来监视apache和mysql的运行。 现在,如果磁盘太满,我想添加一个警报。我将其添加到测试中/etc/monit/monitrc: check device rootfs with path /dev/md0 if space usage > 10% then alert 我要检查两个分区:/和/var: mount /dev/md0 on / type ext3 (rw) /dev/md2 on /var type ext3 (rw) 除了磁盘空间外,在此配置中还有哪些有用的检查?

3
替代etsy / statsd
etsy的statsd可以替代吗?甚至是完整的类似于仪表板的解决方案?我的研究仅发现专有的SaaS解决方案。 对于那些不知道的人:statsd是一个守护进程,它通过UDP收集应用程序和系统指标,并将其发送到Graphite,以生成或多或少的精美图表。有适用于所有重要语言的API。 我需要: 必须在没有第三方收集数据的情况下在我的服务器上运行 应该能够从系统Java和Perl收集数据 应该轻巧灵活 福斯 可能需要其他编程,可能只是一个框架


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.