服务器管理员 sla

4

上周，我们发生了一次严重的停机，影响了多项服务，使我们无法与客户达成SLA。现在，所有问题都已解决，我正在进行事后审查。通过这次审查，我想提出一份内部文件，其中描述了停机，停机的后果，我们的响应和解决方案。我想提出一个相当标准的形式以供将来重用。我在下面列出了我的想法，但是还应该包括哪些其他项目？如果这是与安全相关的事件，您将添加什么？摘要执行级别的事件摘要。受影响的服务影响对我们的用户和SLA有什么影响？是否存在美元成本，交易遗失，客户流失等方面的成本？中断持续时间对于每个受影响的服务，如果存在差异原因包括主要和次要原因解析度事件通知，与外部供应商联系，客户通知，响应等的时间表我们的响应存在问题我们对中断的响应是否没有按计划进行？正确的人通知了吗？供应商是否履行了合同规定的义务？采取的预防措施我们如何防止这种中断再次发生或减少其影响？检测方法我们如何很好地检测到这种故障，并且将来如何改进检测？未来停电响应中的更改尝试将帖子限制在一个项目和说明之内，然后可以用投票率最高的答案来更新此帖子。

14 sla outage

2

地理分布，容错和“智能”的应用程序/主机监视系统

问候，我想问一下集体对分布式监视系统的看法和看法，您使用什么，知道哪些可能会打扰我？要求非常复杂；没有单点故障。真。我很认真！需要能够容忍“主”和“工作者”的单/多节点故障，并且您可能会假设没有监视位置（“站点”）中有多个节点，或者它们在同一网络上。因此，这可能排除了传统的HA技术，例如DRBD或Keepalive。分布式逻辑，我想在多个数据中心和多个洲的多个网络中部署5个以上的节点。我希望从客户的角度看待我的网络和应用程序的“鸟瞰图”，当拥有50多个节点甚至500多个节点时，监控逻辑的加分点不会陷入困境。需要能够处理相当合理数量的主机/服务检查（如La Nagios），据估算，假设有1500-2500台主机，每台主机30项服务。如果增加更多的监视节点使您能够相对线性地扩展，那将是非常不错的，也许在5年的时间里，我可能希望监视5000个主机和每个主机40个服务！加上我上面关于“分布式逻辑”的注释，很高兴地说：在正常情况下，这些检查必须在$ n或n％的监视节点上运行。如果检测到故障，请在另外$ n或n％的节点上运行检查，将结果关联起来，然后使用它们来确定是否已满足发出警报的条件。图形和管理友好的功能。我们需要跟踪我们的SLA，并且了解我们的“高可用性”应用程序是否全天候24x7运行是很有用的。理想情况下，您建议的解决方案应该以最少的工作量“开箱即用”地报告。必须具有可靠的API或插件系统才能开发定制检查。需要对警报保持明智。我不想一定知道（通过SMS，凌晨3点！）一个监视节点认为我的核心路由器已关闭。我也想知道，如果一个定义了它们的百分比同意的东西时髦是要去;）本质上就是我这里所说的“法定”的逻辑，或理智的分布式疯狂的应用程序！我愿意考虑商业和开源两种选择，尽管我更愿意避免花费数百万英镑的软件:-)我也愿意接受可能没有任何东西可以解决所有这些问题，但是想问一下集体。在考虑监视节点及其位置时，请记住，其中大多数将是随机ISP网络上的专用服务器，因此很大程度上超出了我的控制范围。依赖BGP提要和其他复杂网络滑稽动作的解决方案可能不适合。我还应该指出，我过去曾经评估，部署或大量使用/定制了包括Nagios，Zabbix和朋友在内的大多数开放源代码版本-它们虽然不是很差的工具，但总体上却落伍了。分布式”方面，尤其是在我的问题和“智能”警报中讨论的逻辑方面。很高兴阐明任何要求。欢呼的家伙和女友:-)

12 monitoring nagios sla

2

在哪里可以找到良好的SLA协议？

我想找到一个提供示例服务水平协议（SLA）的网站。有人知道我在哪里可以找到好的例子吗？

10 service sla

Questions tagged «sla»