服务器管理员 monitoring

5

我需要监视Web服务器上运行的多个进程。由于某种原因，清漆目前每天或每两天崩溃一次。我正在使用monit自动重新启动清漆，但是它不起作用。这是我的Varnish的monit.conf条目。 check process varnish with pidfile /var/run/varnish.pid start program = "/etc/init.d/varnish start" with timeout 60 seconds stop program = "/etc/init.d/varnish stop" if failed host <my server ip> port 80 protocol http and request "/blank.html" then restart if 3 restarts within 5 cycles then timeout group server 日志文件显示，清漆停止运行后，尝试重新启动之后全部失败。然后最终monit停止监视清漆。有人对我如何解决此问题有建议吗？还是更好，您能建议其他自动监视和重新启动崩溃进程的简单方法吗？谢谢！

10 linux web-server monitoring varnish monit

6

Nagios监视网站上的文本

我想知道我是否可以在监视网站上的文本方面获得帮助。IE如果我想监视google.com上的“隐私”文本，我想我会使用以下命令： check_http -H google.com -u http://www.google.com -s "Privacy" 但这是行不通的。无论我使用什么引号，都可以“确定”。我显然使用了错误的命令或错误的选项。请帮忙。

10 linux monitoring website nagios

3

监控互联网带宽

我们的网络中安装了IPCop防火墙/代理，尽管我可以使用iftop稍微了解一下客户端如何使用Internet，但是否可以使用ntop之类的代理从外部对其进行监视？请注意，我对LAN通信不感兴趣，仅对进出Internet的通信不感兴趣。

10 monitoring bandwidth

6

驯服现有网络[关闭]

关闭。这个问题是题外话。它当前不接受答案。 5年前关闭。已锁定。该问题及其答案被锁定，因为该问题是题外话，但具有历史意义。它目前不接受新的答案或互动。我最近以唯一的IT人才的身份加入了一家公司，我正努力了解我们拥有的软件和硬件以及其部署方式。考虑到我有限的时间和预算，什么工具或流程对于发现和管理这些信息将是有效的？我要照顾的事情包括：大约35个台式机，包括PC和Mac。 Microsoft服务器，包括AD，Exchange，SQL和IIS服务器。有线，无线和VPN网络。我的目标是：找出并改善任何问题。确保我们已获得正确的许可。记录足够多的内容，以使下一个工作更加轻松。

10 monitoring

19

作为系统管理员，什么Firefox插件可以帮助您完成工作？[关闭]

关闭。这个问题是题外话。它当前不接受答案。 7年前关闭。已锁定。该问题及其答案被锁定，因为该问题是题外话，但具有历史意义。它目前不接受新的答案或互动。我知道有几个Firefox插件对于开发非常有价值。存在哪些对系统管理，监视等有用的插件？哪些插件使您作为系统或网络管理员的日常工作变得更轻松？

10 monitoring firefox

2

RAID阵列降级时如何获得电子邮件警报？VMware ESXi 5.0，MegaRAID SAS 9260-4i

我们最近购买了一个“白盒”服务器来运行VMware ESXi 5.0（我们计划使用vSphere 5 Essentials Kit）。根据VMware的《兼容性指南》，服务器的LSI Logic MegaRAID SAS 9260-4i RAID控制器是兼容的（支持类型列为“收件箱”）。我已经在主机上安装了ESXi 5.0，还安装了vCenter Server Appliance。我使用vSphere Client连接到vCenter Server，可以看到一系列预定义的警报，其中包括一个在“主机存储状态”更改时触发的警报，这听起来像我所需要的。我刚刚尝试从RAID阵列中拉出其中一个驱动器（导致RAID控制器发出预期的提示音），但是vCenter中绝对没有发生任何变化。似乎没有触发“主机存储状态”警报。我真正需要做的是将vCenter配置为在RAID阵列降级时发送电子邮件，以确保我们知道并可以更换失效的驱动器。如果警报甚至不会触发，那似乎就没有希望。我在这里想念什么吗？我绝不是VMware或服务器硬件方面的专家，所以我什至不知道该问谁。提前致谢！

10 monitoring vmware-esxi megaraid

4

监控Linux上的打开进程文件（实时）

可以使用以下命令找到由XYZ进程打开的文件 ls -l /proc/PID/fd 无论如何，是否可以通过更具交互性的方式来完成，例如tail每x秒自动刷新一次？

10 monitoring performance-monitoring process files

2

使用Nagios检查服务不可用是否合理？

假设我有一台带有专用接口和公用接口的服务器。公用可能具有HTTP（S）服务器之类的东西，私人可能具有MySQL和SSH。显然，Nagios对于检查服务是否在各自的接口上运行很有用。但是，建立检查以明确测试MySQL和SSH端口是否未在公共接口上打开是个好主意吗？这样做的目的是发现因疏忽而引起的错误配置，这些错误配置打开了应该是私有的服务，并发出了适当的警报。我的一部分想法是，这无法很好地扩展-假设有一个iptables DROP规则，例如，检查必须等到超过检查超时后才能完成并继续。但是该超时必须足够高，才能将阻塞的服务与真正陷入困境的开放服务区分开。这是一个实际的想法吗？Nagios是正确的工具吗？我什至没有研究过否定TCP检查插件的结果的可行性，但是我敢肯定它是可行的...

9 firewall monitoring nagios service private-ip

2

计算直到磁盘已满的天数

我们使用石墨来跟踪一段时间内磁盘利用率的历史记录。我们的警报系统会查看石墨中的数据，以在可用空间低于一定数量的块时向我们发出警报。我想获得更智能的警报-我真正关心的是“我必须花多长时间才能对可用空间做些什么？”，例如，如果趋势表明在7天内我将用完磁盘空格，然后发出警告，如果少于2天，则引发错误。使用衍生工具和Holt Winters Confidence乐队，Graphite的标准仪表板界面可以非常智能，但是到目前为止，我还没有找到将其转换为可操作指标的方法。我也可以通过其他方式处理数字（只需从石墨中提取原始数字并运行脚本即可）。一个复杂的问题是，该图并不平滑-添加和删除文件，但是随着时间的推移，总体趋势是磁盘空间使用量增加，因此也许需要查看本地最小值（如果查看“无磁盘”指标））并在槽之间绘制趋势。有人这样做吗？

9 disk-space-utilization monitoring graphite

2

API管理解决方案

关闭。这个问题是题外话。它当前不接受答案。想改善这个问题吗？更新问题，以使其成为服务器故障的主题。 6年前关闭。我目前正在构建一个API，并且正在寻找一种工具来允许我监视（在GUI中）和速率限制用法。我遇到过一些企业解决方案，包括： http://apigee.com/ http://mashery.com/ http://www.layer7tech.com/ http://www.3scale.net/ Apigee企业计划正是我想要的，但计划的起价为每月3000美元，超出了我的价格范围。其他解决方案要么太贵，要么不提供我想要的解决方案。这使我看了一些开源选项，包括： http://apiaxle.com/ https://code.google.com/p/varnish-apikey/wiki/使用手册清漆似乎是一个相当完整的解决方案。但是，我需要构建一个GUI来可视化数据。我最后的选择是使用EventMachine和ruby从头开始构建解决方案。有什么建议吗？

9 nginx monitoring proxy ruby-on-rails

1

有人可以解释默认穆宁图的“用例”吗？

安装munin时，它将激活一组默认插件（至少在ubuntu上）。另外，您可以运行munin-node-configure以找出系统上支持哪些插件。这些插件大多数都绘制直接数据。我的问题是无法解释的数据（也......也许对一些）的性质，但什么是你在这些图中寻找什么？安装munin并查看花式图很容易。但是拥有这些图形而无法“读取”它们会使它们完全无用。我将列出系统上默认启用的标准插件。因此，这将是一长串的清单。为了完整起见，我还将列出我认为可以理解的插件，并简要解释一下我认为该插件的用途。如果我对任何一个都不对，请改正。因此，让我将这个问题分为三个部分：我什至不了解数据的插件我了解数据但不知道该注意什么的插件我想了解的插件我什至不了解数据的插件这些问题可能包含不一定仅针对穆宁的问题。不理解数据通常意味着在操作系统/硬件基础知识上的不足。;;）随意回答“ giyf”。这些是我只能猜测发生了什么的插件...我几乎不想看这些“猜测” ... 每个设备的磁盘IO（IO /秒）是什么IO。我知道它代表输入/输出。但是，就目前而言。每个设备的磁盘延迟（平均IO等待）不知道什么是“ IO等待” ... IO服务时间这是一个巨大的混乱局面，几乎完全看不到图表中的任何内容。我了解数据但不知道该注意什么的插件 IOStat（读取/写入的块/秒），我想，这里要注意的是峰值吗？这将意味着该设备被大量使用？可用熵（字节）我认为这对随机数生成很重要吗？我为什么要画这个图？到目前为止，该值一直接近恒定。 VMStat（运行中/ I / O睡眠过程）和“过程”图有什么区别？两者都显示正在运行/正在休眠的进程，而“进程”图似乎具有更多详细信息。每台设备的磁盘吞吐量（字节/秒读/写的字节数）该设备与“ IOStat”图之间的区别是什么？ inode表的用法在此图中我应该寻找什么？我想了解的插件我会在这里猜测一些事情...如果我错了，请纠正我。磁盘使用百分比（百分比）已使用/剩余的磁盘空间。随着接近100％，您应该考虑清理或扩展分区。这对于根分区非常重要。防火墙吞吐量（数据包/秒）穿过防火墙的数据包数量。如果这种情况持续了很长时间，则可能是DOS攻击的征兆（或者我们只是接收到一个大文件）。它还可以使您对防火墙的性能有所了解。如果正在逐步升级并且您需要更多的“电源”，则应考虑负载平衡。如果正在升级，并且发现与您的CPU负载相关，则也可能意味着您的硬件不够快。与磁盘使用率的相关性可能表明FW配置中的LOG目标过多。 eth0错误（数据包输入/输出）网络错误。如果该值增加，则可能是硬件故障的迹象。 eth0流量（位/秒进/出）原始网络流量。这应该与防火墙吞吐量相关。线程数不断增加的值可能表示进程未正确关闭线程。调查！进程活动进程的分解（包括睡眠）。此处的快速飙升可能指向叉式炸弹。缓慢但不断增加的值可能表明应用程序生成了子流程，但未正确关闭它们。使用进行调查ps faux。流程优先级这显示了流程优先级的分布。仅具有高优先级的过程没有多大用处。考虑取消优先级。 cpu用法相当简单。如果出现这种情况，则可能是正在进行攻击，或者进程占用了CPU。Idf在缓慢增加并在正常操作中接近最大值时，您应该考虑升级硬件（或负载平衡）。文件表使用情况主动打开的文件数。如果达到最大值，则可能有一个进程正在打开，但没有正确释放文件。平均负载显示系统负载的汇总值。应与CPU使用率相关。增值可以来自多种来源。寻找与其他图形的相关性。内存使用情况内存的图形表示。只要您有许多未使用的+缓存+缓冲区，就可以了。 swap in / out显示交换分区上的活动。该值应始终为0。如果看到此操作，则应在计算机上添加更多内存！

9 linux monitoring munin

4

监控每个用户的SSH流量

我们有一个备份应用程序，每12小时运行一次。多个服务器，台式机和便携式计算机连接到EC2实例，并使用其自己的登录凭据通过SFTP推送备份。如果他们需要恢复文件，则可以通过简单的SFTP客户端浏览文件并还原文件。在过去的8个月中，这一直运行良好。我想知道每个用户每月通过SSH传输多少数据。我不需要过去8个月的日志，但是从现在开始可以记录下来的东西会很棒。有什么可以让我做到这一点的吗？作业系统：Ubuntu 10.10

9 ssh monitoring bandwidth

6

Nagios绘图解决方案与Munin / Cacti / Ganglia

我有一个用于监视30台Windows服务器的nagios服务器设置。我想添加一些趋势图。我读过，nagios图形插件很简单，许多人使用单独的独立图表/趋势工具。 nagios图形插件相对于独立产品（例如ganglia / munin / cacti）的限制是什么？我对独立软件包提供的特定功能和优点感兴趣，而nagios图形插件却没有。

9 monitoring nagios munin cacti ganglia

7

Apache日志的彩色尾部

tail –f一段时间后，用趋向监视apache日志会使眼睛非常沮丧。是否有任何工具/选项可以使日志输出着色？可能用红色等指示致命信号...

9 linux monitoring logging console tail

3

在Linux中监控系统CPU /系统调用

我有几个进程正在占用大量系统CPU时间（通过查看vmstat来确定）。有没有一种简单的方法来找出正在进行哪种系统调用？我知道有strace，但是有没有更快更简单的方法？是否存在类似“ top”的系统调用？

9 linux performance monitoring central-processing-unit strace

Questions tagged «monitoring»