4
记录停机以进行事后审查
上周,我们发生了一次严重的停机,影响了多项服务,使我们无法与客户达成SLA。现在,所有问题都已解决,我正在进行事后审查。 通过这次审查,我想提出一份内部文件,其中描述了停机,停机的后果,我们的响应和解决方案。我想提出一个相当标准的形式以供将来重用。我在下面列出了我的想法,但是还应该包括哪些其他项目?如果这是与安全相关的事件,您将添加什么? 摘要执行级别的事件摘要。 受影响的服务 影响对我们的用户和SLA有什么影响?是否存在美元成本,交易遗失,客户流失等方面的成本? 中断持续时间对于每个受影响的服务,如果存在差异 原因包括主要和次要原因 解析度 事件通知,与外部供应商联系,客户通知,响应等的时间表 我们的响应存在问题我们对中断的响应是否没有按计划进行?正确的人通知了吗?供应商是否履行了合同规定的义务? 采取的预防措施我们如何防止这种中断再次发生或减少其影响? 检测方法我们如何很好地检测到这种故障,并且将来如何改进检测? 未来停电响应中的更改 尝试将帖子限制在一个项目和说明之内,然后可以用投票率最高的答案来更新此帖子。