Questions tagged «monitoring»

观察机器,系统和网络以发现问题并通知管理员的应用程序或设备。

5
重新启动崩溃进程的简单方法?
我需要监视Web服务器上运行的多个进程。由于某种原因,清漆目前每天或每两天崩溃一次。我正在使用monit自动重新启动清漆,但是它不起作用。这是我的Varnish的monit.conf条目。 check process varnish with pidfile /var/run/varnish.pid start program = "/etc/init.d/varnish start" with timeout 60 seconds stop program = "/etc/init.d/varnish stop" if failed host <my server ip> port 80 protocol http and request "/blank.html" then restart if 3 restarts within 5 cycles then timeout group server 日志文件显示,清漆停止运行后,尝试重新启动之后全部失败。然后最终monit停止监视清漆。 有人对我如何解决此问题有建议吗?还是更好,您能建议其他自动监视和重新启动崩溃进程的简单方法吗?谢谢!

6
Nagios监视网站上的文本
我想知道我是否可以在监视网站上的文本方面获得帮助。IE如果我想监视google.com上的“隐私”文本,我想我会使用以下命令: check_http -H google.com -u http://www.google.com -s "Privacy" 但这是行不通的。无论我使用什么引号,都可以“确定”。我显然使用了错误的命令或错误的选项。请帮忙。

3
监控互联网带宽
我们的网络中安装了IPCop防火墙/代理,尽管我可以使用iftop稍微了解一下客户端如何使用Internet,但是否可以使用ntop之类的代理从外部对其进行监视? 请注意,我对LAN通信不感兴趣,仅对进出Internet的通信不感兴趣。

6
驯服现有网络[关闭]
关闭。这个问题是题外话。它当前不接受答案。 5年前关闭。 已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 我最近以唯一的IT人才的身份加入了一家公司,我正努力了解我们拥有的软件和硬件以及其部署方式。考虑到我有限的时间和预算,什么工具或流程对于发现和管理这些信息将是有效的?我要照顾的事情包括: 大约35个台式机,包括PC和Mac。 Microsoft服务器,包括AD,Exchange,SQL和IIS服务器。 有线,无线和VPN网络。 我的目标是: 找出并改善任何问题。 确保我们已获得正确的许可。 记录足够多的内容,以使下一个工作更加轻松。
10 monitoring 

19
作为系统管理员,什么Firefox插件可以帮助您完成工作?[关闭]
关闭。这个问题是题外话。它当前不接受答案。 7年前关闭。 已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 我知道有几个Firefox插件对于开发非常有价值。存在哪些对系统管理,监视等有用的插件?哪些插件使您作为系统或网络管理员的日常工作变得更轻松?

2
RAID阵列降级时如何获得电子邮件警报?VMware ESXi 5.0,MegaRAID SAS 9260-4i
我们最近购买了一个“白盒”服务器来运行VMware ESXi 5.0(我们计划使用vSphere 5 Essentials Kit)。根据VMware的《兼容性指南》,服务器的LSI Logic MegaRAID SAS 9260-4i RAID控制器是兼容的(支持类型列为“收件箱”)。 我已经在主机上安装了ESXi 5.0,还安装了vCenter Server Appliance。我使用vSphere Client连接到vCenter Server,可以看到一系列预定义的警报,其中包括一个在“主机存储状态”更改时触发的警报,这听起来像我所需要的。 我刚刚尝试从RAID阵列中拉出其中一个驱动器(导致RAID控制器发出预期的提示音),但是vCenter中绝对没有发生任何变化。似乎没有触发“主机存储状态”警报。 我真正需要做的是将vCenter配置为在RAID阵列降级时发送电子邮件,以确保我们知道并可以更换失效的驱动器。如果警报甚至不会触发,那似乎就没有希望。 我在这里想念什么吗?我绝不是VMware或服务器硬件方面的专家,所以我什至不知道该问谁。 提前致谢!


2
使用Nagios检查服务不可用是否合理?
假设我有一台带有专用接口和公用接口的服务器。公用可能具有HTTP(S)服务器之类的东西,私人可能具有MySQL和SSH。 显然,Nagios对于检查服务是否在各自的接口上运行很有用。但是,建立检查以明确测试MySQL和SSH端口是否未在公共接口上打开是个好主意吗?这样做的目的是发现因疏忽而引起的错误配置,这些错误配置打开了应该是私有的服务,并发出了适当的警报。 我的一部分想法是,这无法很好地扩展-假设有一个iptables DROP规则,例如,检查必须等到超过检查超时后才能完成并继续。但是该超时必须足够高,才能将阻塞的服务与真正陷入困境的开放服务区分开。 这是一个实际的想法吗?Nagios是正确的工具吗?我什至没有研究过否定TCP检查插件的结果的可行性,但是我敢肯定它是可行的...

2
计算直到磁盘已满的天数
我们使用石墨来跟踪一段时间内磁盘利用率的历史记录。我们的警报系统会查看石墨中的数据,以在可用空间低于一定数量的块时向我们发出警报。 我想获得更智能的警报-我真正关心的是“我必须花多长时间才能对可用空间做些什么?”,例如,如果趋势表明在7天内我将用完磁盘空格,然后发出警告,如果少于2天,则引发错误。 使用衍生工具和Holt Winters Confidence乐队,Graphite的标准仪表板界面可以非常智能,但是到目前为止,我还没有找到将其转换为可操作指标的方法。我也可以通过其他方式处理数字(只需从石墨中提取原始数字并运行脚本即可)。 一个复杂的问题是,该图并不平滑-添加和删除文件,但是随着时间的推移,总体趋势是磁盘空间使用量增加,因此也许需要查看本地最小值(如果查看“无磁盘”指标) )并在槽之间绘制趋势。 有人这样做吗?

2
API管理解决方案
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,以使其成为服务器故障的主题。 6年前关闭。 我目前正在构建一个API,并且正在寻找一种工具来允许我监视(在GUI中)和速率限制用法。我遇到过一些企业解决方案,包括: http://apigee.com/ http://mashery.com/ http://www.layer7tech.com/ http://www.3scale.net/ Apigee企业计划正是我想要的,但计划的起价为每月3000美元,超出了我的价格范围。其他解决方案要么太贵,要么不提供我想要的解决方案。 这使我看了一些开源选项,包括: http://apiaxle.com/ https://code.google.com/p/varnish-apikey/wiki/使用手册 清漆似乎是一个相当完整的解决方案。但是,我需要构建一个GUI来可视化数据。 我最后的选择是使用EventMachine和ruby从头开始构建解决方案。 有什么建议吗?

1
有人可以解释默认穆宁图的“用例”吗?
安装munin时,它将激活一组默认插件(至少在ubuntu上)。另外,您可以运行munin-node-configure以找出系统上支持哪些插件。这些插件大多数都绘制直接数据。我的问题是无法解释的数据(也......也许对一些)的性质,但什么是你在这些图中寻找什么? 安装munin并查看花式图很容易。但是拥有这些图形而无法“读取”它们会使它们完全无用。 我将列出系统上默认启用的标准插件。因此,这将是一长串的清单。为了完整起见,我还将列出我认为可以理解的插件,并简要解释一下我认为该插件的用途。如果我对任何一个都不对,请改正。 因此,让我将这个问题分为三个部分: 我什至不了解数据的插件 我了解数据但不知道该注意什么的插件 我想了解的插件 我什至不了解数据的插件 这些问题可能包含不一定仅针对穆宁的问题。不理解数据通常意味着在操作系统/硬件基础知识上的不足。;;)随意回答“ giyf”。 这些是我只能猜测发生了什么的插件...我几乎不想看这些“猜测” ... 每个设备的磁盘IO(IO /秒)是什么IO。我知道它代表输入/输出。但是,就目前而言。 每个设备的磁盘延迟(平均IO等待)不知道什么是“ IO等待” ... IO服务时间这是一个巨大的混乱局面,几乎完全看不到图表中的任何内容。 我了解数据但不知道该注意什么的插件 IOStat(读取/写入的块/秒),我想,这里要注意的是峰值吗?这将意味着该设备被大量使用? 可用熵(字节)我认为这对随机数生成很重要吗?我为什么要画这个图?到目前为止,该值一直接近恒定。 VMStat(运行中/ I / O睡眠过程)和“过程”图有什么区别?两者都显示正在运行/正在休眠的进程,而“进程”图似乎具有更多详细信息。 每台设备的磁盘吞吐量(字节/秒读/写的字节数)该设备与“ IOStat”图之间的区别是什么? inode表的用法在此图中我应该寻找什么? 我想了解的插件 我会在这里猜测一些事情...如果我错了,请纠正我。 磁盘使用百分比(百分比)已使用/剩余的磁盘空间。随着接近100%,您应该考虑清理或扩展分区。这对于根分区非常重要。 防火墙吞吐量(数据包/秒)穿过防火墙的数据包数量。如果这种情况持续了很长时间,则可能是DOS攻击的征兆(或者我们只是接收到一个大文件)。它还可以使您对防火墙的性能有所了解。如果正在逐步升级并且您需要更多的“电源”,则应考虑负载平衡。如果正在升级,并且发现与您的CPU负载相关,则也可能意味着您的硬件不够快。与磁盘使用率的相关性可能表明FW配置中的LOG目标过多。 eth0错误(数据包输入/输出)网络错误。如果该值增加,则可能是硬件故障的迹象。 eth0流量(位/秒进/出)原始网络流量。这应该与防火墙吞吐量相关。 线程数不断增加的值可能表示进程未正确关闭线程。调查! 进程活动进程的分解(包括睡眠)。此处的快速飙升可能指向叉式炸弹。缓慢但不断增加的值可能表明应用程序生成了子流程,但未正确关闭它们。使用进行调查ps faux。 流程优先级这显示了流程优先级的分布。仅具有高优先级的过程没有多大用处。考虑取消优先级。 cpu用法相当简单。如果出现这种情况,则可能是正在进行攻击,或者进程占用了CPU。Idf在缓慢增加并在正常操作中接近最大值时,您应该考虑升级硬件(或负载平衡)。 文件表使用情况主动打开的文件数。如果达到最大值,则可能有一个进程正在打开,但没有正确释放文件。 平均负载显示系统负载的汇总值。应与CPU使用率相关。增值可以来自多种来源。寻找与其他图形的相关性。 内存使用情况内存的图形表示。只要您有许多未使用的+缓存+缓冲区,就可以了。 swap in / out显示交换分区上的活动。该值应始终为0。如果看到此操作,则应在计算机上添加更多内存!

4
监控每个用户的SSH流量
我们有一个备份应用程序,每12小时运行一次。 多个服务器,台式机和便携式计算机连接到EC2实例,并使用其自己的登录凭据通过SFTP推送备份。 如果他们需要恢复文件,则可以通过简单的SFTP客户端浏览文件并还原文件。在过去的8个月中,这一直运行良好。 我想知道每个用户每月通过SSH传输多少数据。我不需要过去8个月的日志,但是从现在开始可以记录下来的东西会很棒。 有什么可以让我做到这一点的吗? 作业系统:Ubuntu 10.10

6
Nagios绘图解决方案与Munin / Cacti / Ganglia
我有一个用于监视30台Windows服务器的nagios服务器设置。我想添加一些趋势图。我读过,nagios图形插件很简单,许多人使用单独的独立图表/趋势工具。 nagios图形插件相对于独立产品(例如ganglia / munin / cacti)的限制是什么? 我对独立软件包提供的特定功能和优点感兴趣,而nagios图形插件却没有。



By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.