Questions tagged «sla»

4
记录停机以进行事后审查
上周,我们发生了一次严重的停机,影响了多项服务,使我们无法与客户达成SLA。现在,所有问题都已解决,我正在进行事后审查。 通过这次审查,我想提出一份内部文件,其中描述了停机,停机的后果,我们的响应和解决方案。我想提出一个相当标准的形式以供将来重用。我在下面列出了我的想法,但是还应该包括哪些其他项目?如果这是与安全相关的事件,您将添加什么? 摘要执行级别的事件摘要。 受影响的服务 影响对我们的用户和SLA有什么影响?是否存在美元成本,交易遗失,客户流失等方面的成本? 中断持续时间对于每个受影响的服务,如果存在差异 原因包括主要和次要原因 解析度 事件通知,与外部供应商联系,客户通知,响应等的时间表 我们的响应存在问题我们对中断的响应是否没有按计划进行?正确的人通知了吗?供应商是否履行了合同规定的义务? 采取的预防措施我们如何防止这种中断再次发生或减少其影响? 检测方法我们如何很好地检测到这种故障,并且将来如何改进检测? 未来停电响应中的更改 尝试将帖子限制在一个项目和说明之内,然后可以用投票率最高的答案来更新此帖子。
14 sla  outage 

2
地理分布,容错和“智能”的应用程序/主机监视系统
问候, 我想问一下集体对分布式监视系统的看法和看法,您使用什么,知道哪些可能会打扰我? 要求非常复杂; 没有单点故障。真。我很认真!需要能够容忍“主”和“工作者”的单/多节点故障,并且您可能会假设没有监视位置(“站点”)中有多个节点,或者它们在同一网络上。因此,这可能排除了传统的HA技术,例如DRBD或Keepalive。 分布式逻辑,我想在多个数据中心和多个洲的多个网络中部署5个以上的节点。我希望从客户的角度看待我的网络和应用程序的“鸟瞰图”,当拥有50多个节点甚至500多个节点时,监控逻辑的加分点不会陷入困境。 需要能够处理相当合理数量的主机/服务检查(如La Nagios),据估算,假设有1500-2500台主机,每台主机30项服务。如果增加更多的监视节点使您能够相对线性地扩展,那将是非常不错的,也许在5年的时间里,我可能希望监视5000个主机和每个主机40个服务!加上我上面关于“分布式逻辑”的注释,很高兴地说: 在正常情况下,这些检查必须在$ n或n%的监视节点上运行。 如果检测到故障,请在另外$ n或n%的节点上运行检查,将结果关联起来,然后使用它们来确定是否已满足发出警报的条件。 图形和管理友好的功能。我们需要跟踪我们的SLA,并且了解我们的“高可用性”应用程序是否全天候24x7运行是很有用的。理想情况下,您建议的解决方案应该以最少的工作量“开箱即用”地报告。 必须具有可靠的API或插件系统才能开发定制检查。 需要对警报保持明智。我不想一定知道(通过SMS,凌晨3点!)一个监视节点认为我的核心路由器已关闭。我也想知道,如果一个定义了它们的百分比同意的东西时髦是要去;)本质上就是我这里所说的“法定”的逻辑,或理智的分布式疯狂的应用程序! 我愿意考虑商业和开源两种选择,尽管我更愿意避免花费数百万英镑的软件:-)我也愿意接受可能没有任何东西可以解决所有这些问题,但是想问一下集体。 在考虑监视节点及其位置时,请记住,其中大多数将是随机ISP网络上的专用服务器,因此很大程度上超出了我的控制范围。依赖BGP提要和其他复杂网络滑稽动作的解决方案可能不适合。 我还应该指出,我过去曾经评估,部署或大量使用/定制了包括Nagios,Zabbix和朋友在内的大多数开放源代码版本-它们虽然不是很差的工具,但总体上却落伍了。分布式”方面,尤其是在我的问题和“智能”警报中讨论的逻辑方面。 很高兴阐明任何要求。欢呼的家伙和女友:-)
12 monitoring  nagios  sla 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.