记录停机以进行事后审查


14

上周,我们发生了一次严重的停机,影响了多项服务,使我们无法与客户达成SLA。现在,所有问题都已解决,我正在进行事后审查。

通过这次审查,我想提出一份内部文件,其中描述了停机,停机的后果,我们的响应和解决方案。我想提出一个相当标准的形式以供将来重用。我在下面列出了我的想法,但是还应该包括哪些其他项目?如果这是与安全相关的事件,您将添加什么?

  • 摘要执行级别的事件摘要。
  • 受影响的服务
  • 影响对我们的用户和SLA有什么影响?是否存在美元成本,交易遗失,客户流失等方面的成本?
  • 中断持续时间对于每个受影响的服务,如果存在差异
  • 原因包括主要和次要原因
  • 解析度
  • 事件通知,与外部供应商联系,客户通知,响应等的时间表
  • 我们的响应存在问题我们对中断的响应是否没有按计划进行?正确的人通知了吗?供应商是否履行了合同规定的义务?
  • 采取的预防措施我们如何防止这种中断再次发生或减少其影响?
  • 检测方法我们如何很好地检测到这种故障,并且将来如何改进检测?
  • 未来停电响应中的更改

尝试将帖子限制在一个项目和说明之内,然后可以用投票率最高的答案来更新此帖子。

Answers:


6

尽管可以在“ 采取预防措施”中进行介绍,但我还是建议您使用“ 检测方法”部分来记录真正的症状,以及在再次发生问题时(更快)发现问题的方法,最好是使用自动化。


添加到Wiki
Doug Luxem

2

看起来不错。我只会添加以下内容:

影响/后果:中断的后果是什么?谁受到了影响,违反了哪些SLA(如果有),是否有连锁效应?


1

受影响的服务和中断时间仅告诉您中断的严重程度。您还想知道对业务的影响。

影响:这对用户产生了什么影响,您对此有何看法?这花了我们多少钱(由于缺少SLA,订单丢失等)?


我喜欢受影响的服务和业务影响之间的区别,但是我将其归类为“业务影响”,而不仅仅是影响(将其与受影响的服务/持续时间信息区分开)。此外,它还会吸引需要注意业务影响的管理人员的眼光,即使不是所有影响了哪些服务的技术细节也要注意...
Milner 2009年

1

公开发布和内部发布

这是管理层可以决定的更多内容,但是您可能要包括哪些内容应包括哪些内容应发布给客户或您的建议。同样,在发布任何内容之前,无论哪种方式都会从管理层那里获得关于将发布给客户的确切措辞的批准。

公开发布应包含在此中,以便公司中的任何人都知道他们可以告诉客户什么。


我认为此内部文档可用于为客户生成外部版本。告诉客户的确切信息将取决于我们的高管和营销/交流。
道格·卢森堡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.