地理分布,容错和“智能”的应用程序/主机监视系统
问候, 我想问一下集体对分布式监视系统的看法和看法,您使用什么,知道哪些可能会打扰我? 要求非常复杂; 没有单点故障。真。我很认真!需要能够容忍“主”和“工作者”的单/多节点故障,并且您可能会假设没有监视位置(“站点”)中有多个节点,或者它们在同一网络上。因此,这可能排除了传统的HA技术,例如DRBD或Keepalive。 分布式逻辑,我想在多个数据中心和多个洲的多个网络中部署5个以上的节点。我希望从客户的角度看待我的网络和应用程序的“鸟瞰图”,当拥有50多个节点甚至500多个节点时,监控逻辑的加分点不会陷入困境。 需要能够处理相当合理数量的主机/服务检查(如La Nagios),据估算,假设有1500-2500台主机,每台主机30项服务。如果增加更多的监视节点使您能够相对线性地扩展,那将是非常不错的,也许在5年的时间里,我可能希望监视5000个主机和每个主机40个服务!加上我上面关于“分布式逻辑”的注释,很高兴地说: 在正常情况下,这些检查必须在$ n或n%的监视节点上运行。 如果检测到故障,请在另外$ n或n%的节点上运行检查,将结果关联起来,然后使用它们来确定是否已满足发出警报的条件。 图形和管理友好的功能。我们需要跟踪我们的SLA,并且了解我们的“高可用性”应用程序是否全天候24x7运行是很有用的。理想情况下,您建议的解决方案应该以最少的工作量“开箱即用”地报告。 必须具有可靠的API或插件系统才能开发定制检查。 需要对警报保持明智。我不想一定知道(通过SMS,凌晨3点!)一个监视节点认为我的核心路由器已关闭。我也想知道,如果一个定义了它们的百分比同意的东西时髦是要去;)本质上就是我这里所说的“法定”的逻辑,或理智的分布式疯狂的应用程序! 我愿意考虑商业和开源两种选择,尽管我更愿意避免花费数百万英镑的软件:-)我也愿意接受可能没有任何东西可以解决所有这些问题,但是想问一下集体。 在考虑监视节点及其位置时,请记住,其中大多数将是随机ISP网络上的专用服务器,因此很大程度上超出了我的控制范围。依赖BGP提要和其他复杂网络滑稽动作的解决方案可能不适合。 我还应该指出,我过去曾经评估,部署或大量使用/定制了包括Nagios,Zabbix和朋友在内的大多数开放源代码版本-它们虽然不是很差的工具,但总体上却落伍了。分布式”方面,尤其是在我的问题和“智能”警报中讨论的逻辑方面。 很高兴阐明任何要求。欢呼的家伙和女友:-)