您使用什么工具来监视服务器?


187

有关监视工具及其功能的更全面列表,请查看Wikipedia页面

正如问题所指出的,用于此任务的最常用工具是什么?它们的优缺点是什么?


您的服务器在哪个平台上运行?
Glenn Slaven,

1
我的服务器运行的是Debian Lenny,但是问题并不仅仅集中在UNIX监视上,因为许多工具可能会提供某种形式的跨平台支持。
2009年

也许他们使用不同的工具,但是从整个系统的角度来看,您最终会在不同的系统上反复做同样的事情。挤出所需的最后一部分数据只是一点脚本。在这种情况下,我认为“工具”是记录实例(监视服务器),而不是吐出数据的实际插件/脚本
serverhorror

我还希望监视应用程序(性能,可用性等)。监视工具似乎具有其在一端监视硬件的能力以及在另一端监视应用程序的能力。硬件<----- + ----->应用程序
Nathan Hartley 2010年

Answers:


136

过去,我成功使用过Nagios。它是非常可扩展的(超过200个附加组件),相对易于使用,并且包含大量报告。否定是初始设置。


10
Nagios可以很好地监视所有类型的主机(Windows,Linux,路由器,交换机等)。我建议使用诸如Fruity或Lilac之类的配置工具来减轻配置麻烦。NSClient ++的窗户框和Nagios的-上的statd Linux资料监视正在运行的进程,磁盘使用情况等
TonyB

不幸的是,Nagios在Windows盒上需要一个代理-过去,我发现该代理很容易随机死亡。
PowerApp101

我们同时对Nagios和Zabbix进行了监视。经过短暂的评估,Zabbix赢得了胜利,这主要是由于易于部署和功能(例如,Zabbix将图形作为核心功能,而Nagios需要插件)。我发现配置Nagios非常麻烦。

GroundWork OpenSource具有一个网络监视设备,其核心使用Nagios,并简化了设置/管理
Rog 2009年

12
有一个名为icinga的新nagios叉子。还没有,但他们的目标看起来很有希望。icinga.org
cstamas

70

CactiRRDTool的一个非常好的基于Web的前端,提供了非常方便的图形和统计信息。 RRDTool是从多个系统收集数据并监视各种技术数据的部分。

我们正在使用该cacti / RRDTool解决方案来监视Unix和Windows系统。我们获得了许多有用的指标,包括负载,CPU / RAM使用率,高清空间,登录的用户,网络流量,正在运行的进程等等。

您可以在什么是仙人掌上找到有关仙人掌的更多信息页。


仙人掌是一个有趣的解决方案,看起来很棒,而且价格不菲(免费)。但是,网络设备的设置是PITA,记录不充分。现在可能会更好,但在您完成研究之前,我不会承诺。
克里斯·波特

57

就个人而言,我喜欢Munin,它具有非常简单的体系结构,非常易于安装和编写插件。出于您可以想像的所有目的,已经有很多插件,因此您甚至根本不必编写插件。

它还提供精美的图形和配置(非常基本)警报的选项。


2
我也是Munin的忠实粉丝。它支持与Nagios集成(因此您可以同时运行两者),并且支持所有常见的unix版本。我认为没有任何监视Windows节点的支持-但是它是用Perl编写的,因此尽管它可能很简单,但肯定有可能
约翰·道尔顿

2
@约翰。Windows节点通过作为本地munin节点的munin-node-win32或与任何主机一样的SNMP支持。
史蒂夫·施耐普

34

Zabbix。它是开源的,并且设置和定制非常简单。我们有很多自定义的监视脚本可以输入到zabbix服务器中,但是它负责集中数据,适当地显示数据,通知(电子邮件,IM,SMS,Twitter等),等等。


2
我们还使用Zabbix,发现它非常强大且可配置。我们测试了Zabbix和Nagios并最终选择了Zabbix,因为虽然Nagios似乎享有良好的声誉,但安装起来有点痛苦,并且许多功能来自插件而不是核心应用程序中的功能(绘图是很好的例子,您可以通过Zabbix免费获得)。

3
我更喜欢Zabbix,因为它在绘制和映射基础结构方面(在可用性方面)具有灵活性,并且具有灵活的监视方式。
2009年

29

我一直在我们公司进行Spiceworks的发布,我们发现它不仅是监视服务器的工具,而且还是网络上其他所有工具的好工具。

它可以执行诸如自动库存和自定义监视之类的操作,以便在出现问题时向您发送电子邮件(例如:打印机墨水不足10%或该服务器的硬盘驱动器有20%墨水)。

它的缺点可能是每台计算机的信息密度大,不要误会,因为每台计算机有很多数据,但是对于服务器等可能需要大量统计信息的事情,可能需要使用其他工具。

编辑:哦,我是否提到过它的商业模式是基于它永远免费的。


Spiceworks提供了很多很棒的功能-而且免费。

3
SpiceWorks有一个非常庞大的社区,与ServerFault重叠很多。看到社区之间的相互作用会很有趣。我也使用SpiceWorks。很棒的工具。
Scott Alan Miller

现在根据您的建议使用它。优秀的工具。
Marko Carter 2009年

我们在工作中使用它。非常令人印象深刻。仅硬件清单,更不用说软件清单,值得一看。
特里

上次使用Spiceworks(第3版)时,它没有添加或修改监视器,视频卡等硬件组件的任何方法。它可以检测到它们,但通常是不正确的。因此,我仍在使用我讨厌的 GLPI + OCSNG 。
博登

18

抽烟不仅检查各种服务器和服务的可用性,还跟踪其延迟,同时提供易于使用,美观的图形和快速显示的图形。

开箱即用的延迟测量插件种类繁多。如果您了解一些Perl,很容易创建自己的Perl以满足任何特殊需求。

大型安装将受益于主/从系统进行分布式测量。

高度可配置的警报系统将帮助您在问题开始影响用户或演变为严重停机之前发现问题。

吸烟是免费的,MRTG和RRDtool的创建者Tobi Oetiker用Perl编写了开源软件


抽烟很高兴查看您的网络是什么样的
Rory

抽烟对于可视化延迟很了不起。
詹姆斯

15

我用于监视超过一千台Linux机器的地方使用OpenNMS。我们监视每台计算机的硬件以及在其上运行的应用程序。


对于OpenNMS +1,我们还在工作中使用它来监视成千上万的机器和接口。我们有许多不同的操作系统,我们能够使用OpenNMS监视所有这些操作系统。
史蒂夫K

不是我的第一选择,但非常有用

为新硬件添加MIB怎么样?
斯洛伐克,

OpenNMS的默认配置中已经包含许多snmp统计信息,因此它可以自动发现并立即开始绘制图形。新的SNMP统计信息非常容易添加,只需给RRD指定一个名称,OID和数据类型,然后将其放入该统计信息适用的设备类型的组中即可。
mtinberg 2011年

15

Zenoss Core有一些用途,我们(大约一年)一直在使用它来对服务器,网络交换机和UPS进行轻量级监视。

Zenoss Core是屡获殊荣的开源IT监视产品,可通过单个集成软件包有效地管理网络,服务器和应用程序的配置,运行状况和性能。


如果使用免费版本的Zenoss Core,请准备进行许多SNMP MIB调整。我还发现它坚决拒绝在我的某些服务器上收集操作系统数据,并且令人惊讶地很难为诸如检查Web页内容之类的简单任务设置。
gareth_bowles

可以同情MIB问题,但是可以使用Zenoss上的Nagios插件来进行网页检查。
吉梅尔

12

Nagios很棒,因为它是免费的,并且有很多插件可以使用。但是,UI和配置非常困难。

相对于专业版/专业版而言,这恰好相反,它不是免费的Microsoft System Center Operations Manager(SCOM),插件较少,但设置和配置却非常简单。

我必须承认,如果我在一家主要是微软公司的公司中,对可靠性有很高的要求(即无法承受监视中断的费用),或者不得不考虑让开发人员使用它,那么SCOM将是我对Nagios的推荐。


12

我用过:

  • Nagios-需要一些老式的命令行设置,虽然不漂亮,但坚固且功能强大。已被以下内容取代:
  • Zenoss-所需的安装步骤少得多,具有商业用途。一旦运行,其余的将通过浏览器进行控制。功能非常强大,但是如果使用免费版本,则需要一些MIB工作。
  • Intermapper-商业程序,如果您有很多节点需要监视,则非常麻烦。似乎是用Java编写的(或多或少)。
  • Spiceworks-尚未尝试最新版本。较旧的版本需要在引擎盖下多一点,以使其响应,但是,否则效果很好。免费版随附nag广告。

我们广泛使用Intermapper。
sysadmin1138

我也使用InterMapper。控制台客户端是用Java编写的。服务器是用Python编写的。Postgres用作数据汇总和报告的后端数据库。
lsiu 2012年

11

几个星期以来我们一直使用AlertFox,对此我们感到非常高兴。它不仅检查我们的正常运行时间和性能,还通过交易脚本(基于iMacros)监视购物车,用户登录和网站的其他关键部分。

对于内部监控(磁盘空间等),我们使用Nagios


10

PRTG网络监视器-不能说太多好话。令人敬畏的Web前端,特别适合通过SNMP监视路由器(带宽等)和其他设备,并测量SLA的正常运行时间等。

www.paessler.com


9

作为Windows用户,MOM。我们希望升级到Systems Center Operations Manager(SCOM),但直到我们开始部署Windows 2008时才需要升级。


我也使用MOM。我喜欢它,同时讨厌它。
spoulson

SCOM是用于基于Windows的企业环境的出色监视平台。真正的天才是Microsoft产品组本身发布的管理包(这是MS Common Engineering Criteria的一部分,每个产品在RTM的90天内都有SCOM MP)。从产品团队本身获取建议和知识可以极大地提高运营部门保持事情运行和健康的能力,而不会打扰高级管理员。
凯文·科尔比

8

我是运营监控升级项目的一部分。我们已经有多家供应商来现场介绍一些大型系统,并混合了一些较便宜的替代品进行比较。

Hyperic就是其中之一,它也可以作为免费的开源解决方案获得。它为定制代理提供的功能和可扩展性给我留下了深刻的印象。


虽然在资源上不容易,但这无疑是一个很好的监视工具!
Vincent De Baere,2009年

8

为了监视统计信息(内存使用情况,负载,mysql活动,apache活动等),我使用Munin。开箱即用,它已经可以跟踪许多事物,并以不同的时间间隔(过去24小时,过去7天,去年一个月,去年)绘制图表。通过插件,甚至可以监视更多的事情。它的输出是带有漂亮图形的HTML页面。

Munin具有主/节点体系结构:节点在服务器上收集统计信息,而主数据库存储数据并生成HTML和图形。

我使用Monit跟踪正在运行的进程,并在出现某些可配置的情况(高CPU负载,高内存使用,无HTTP响应等)时重新启动或提醒我。Monit还可以监视有关服务器的更多常规信息,例如CPU负载,内存使用情况,硬盘状态或磁盘使用情况。

需要为要监视的每个服务或硬件配置Monit,以及在出现问题时如何响应。最常用的选项是不执行任何操作,发送警报电子邮件或重新启动服务。

Monit可以正常工作,但有时无法启动,停止或重新启动服务,并且没有太多诊断信息可用来告诉您出了什么问题。这意味着您不知道问题是否出在您的服务或Monit配置上,该配置在类似于cron的最小环境下运行。

在大多数Linux发行版中,默认情况下都可以使用这两种工具。


8

我很惊讶没有人提到Linux服务器的logwatchlogcheck-节省了大量时间来阅读日志!


这些工具并不能真正为您提供指标和基础架构趋势的长期可读性。它们是很好的补充,但我不会完全依赖它们。Afaik的“ logwatch”有些邪恶,因为它只会报告您所告知的错误,而不是“ logcheck”,您会告诉工具已知的好东西,并且会报告其他所有内容。
serverhorror


7

我们的项目将Ganglia用于我们的100多个节点集群。我们使用它的原因之一是因为它是Rocks随附的监视工具。

对于我们而言,每个节点的开销非常低很重要,以便有尽可能多的资源可用于计算。Ganglia为我们很好地介绍了群集,并允许我们根据需要深入到各个节点。除了了解当前发生的情况之外,我们还可以很好地了解过去一小时,一天,一周,一个月和一年中发生的事情。各种统计图都是基本的和实用的。


6

这完全取决于您所说的“显示器”。

  • (系统或服务)可用吗?我们使用nagios
  • 到底在做什么 我们有时将munin用于linux服务器,而将cacti用于其他所有服务器,尽管有时配置很麻烦。
  • 做了什么 我们使用syslog-ng将syslog集中在一个地方,然后每天运行自定义的logcheck脚本以通过电子邮件发送报告。我们正在为Windows服务器寻找类似的东西。

5

Graphite(http://graphite.wikidot.com/)是现场竞争与Cacti和基于RRDTool的解决方案竞争的新参与者。

RRDTool被名为Whisper的后备存储所代替。文档很好地概述了为什么会有所不同,我非常喜欢在调查某些东西时使用CLI进行临时图形绘制。


4

我们使用(和喜欢) 的WhatsUpIpswitch公司对我们比较小的Windows网络。它易于设置,相对易于管理,并且知道如何处理Windows服务器以及标准的东西。

对于较大的网络,非Windows的网络或内容很多的网络,我衷心推荐OpenNMS。OpenNMS软件(如果免费),该公司非常乐意出售支持和实施服务。它也恰好是由我的一个非常犀利的朋友从大学办的!


4

对于不喜欢Nagios Web界面的用户,可以使用NPC,这是一个用于Cacti的插件,可以从Cacti中使用Nagios UI,但外观更好(ajax等)。

它从NDO2DB提供的数据库中读取数据,这是从数据库中获取基础架构以供脚本和其他工具使用的好方法。


4

目前,我们使用的是Paessler的 PRTG 。太好了 不需要任何代理,出色的Ajax Web界面,历史记录,图形,WMI等。有10个传感器版本可免费使用,但我们为企业版花了很多钱。钱用得其所。



4

如果您急着想要一个快速的工具来监视MS服务器,则可以使用Windows的性能监视器,设置带有自定义监视模板和自定义日程表的计数器日志(例如:每小时收集5分钟的数据)。然后下载Microsoft的LogParser和Codeplex的日志性能分析(PAL)工具(http://pal.codeplex.com/)来处理计数器日志。PAL将生成详尽的报告,并提供指向可能的问题解决文档/工具的链接。


3

我将Solarwinds,VMware服务器性能选项卡和自定义脚本结合使用。

我在Windows系统中使用的是Solarwinds Orion网络性能监视器。我的Web服务器上的管理员。仍然可以在其上运行一些有用的应用程序指标,但是它具有基本的盒级内容(磁盘,网络,CPU)的良好信息。

对于我的VMware来宾,我喜欢性能选项卡。

对于我的Sun服务器,当我需要在Solarwinds中不可用的东西(因为我们的管理员尚未添加)时,我编写了自定义脚本(通常在Perl中)来监视诸如镜像运行状况,交换使用情况之类的事情。

我想了解更多有关Solarwinds的信息,但是一天只有26个小时(或者我的老板认为),所以我发现这可能是一个小限制...


3

我们使用在Nagios之上运行的OpsView。webUI帮助我们部署新的主机监视器定义,而不必允许SSH访问,提供公共视图并记录历史值。这对于配置和确定合适的基准非常方便。



2

抱歉地说,但是我最终使用了许多自定义脚本。虽然远非理想,但我怀疑还有更通用的解决方案。


始终需要自定义脚本!
Techboy

2

我们已经编写了自己的监控软件。我们的代码几乎不像商业软件包那样复杂,但是我们不需要太多功能。编写我们自己的文档比研究其他软件包并学习如何使用它们容易得多。该代码可以满足我们的需求,并且易于扩展。


2
我认为考虑这样的决定的含义很重要。从头开始写东西可能不会花很多力气,但是在路上进行维护很麻烦。
亚当

我可以想象维护是一个问题,但即使我们已经运行了多年,但它对我们来说并不是一个问题。由于代码库很小且很熟悉,因此我们很容易根据需要添加新功能。维护商业解决方案也可能是随时间的问题,嫁接来自新厂商片时原有的产品不会做你需要的一切,等
约翰·库克
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.