当一切崩溃时,您的检查清单是什么?


40

用户无法访问其电子邮件,CEO无法访问该公司的主页,并且您的寻呼机刚发出“ 911”代码。当一切都炸毁时,你会怎么做?

Answers:


35

第一个答案是保持冷静!我了解到恐慌常常使事情变得更糟的艰难方式。一旦做到这一点,下一步就是实际确定问题所在。用户和管理人员的投诉会从各个角度向您提出,告诉您他们不能做什么,但不能解决问题。

一旦知道了问题,就可以启动解决方案,并开始给生气的用户一个时间表!


3
这是一个被动的计划。一个真正的灾难恢复计划已经针对每个关键业务流程进行了编写和测试。
spoulson

3
可以肯定地说是spaulson:但是要做的第一件事是弄清楚您是否需要激活计划,或者翻转断路器是否可以解决所有问题。
pjz

1
这实际上是最好的操作,完美的开机自检!在您必须能够承受所有压力后,因为上面的评论中所述,每个人都会赶到您的办公室告诉您他们可以去想要的地方。实际上,用户在大多数时候都非常自私,他们根本不希望了解,他们只是希望自己的东西起作用,而不关心其他事情...所以我完全同意您的文章!
Marc-Andre R.

+1用于区分“问题”和症状。
bmb

59

保持冷静

不要惊慌。呼吸!(通过隔膜,它会有所帮助。)如果您学习过冥想,那也可以有所帮助。

面对极端压力时,您的身体会进入逃避或战斗模式,因为您的身体认为自己处于生死攸关的情况。此时,您的身体实际上会向大脑的某些部分泵送更少的血液,从而减少推理功能。由于本能而非理性开始支配大脑功能,因此有效降低了智商。如果您曾经去过或目睹过激烈的争论,您可能会认识到这些症状,因为人们的情绪高涨,理性需要放假。后来,当人们有机会冷静下来时,他们将更有可能接受犯错或犯错,并且更有能力看到另一面,但就目前而言,却并非如此。

保持镇定自若并保持智慧,可以使大脑充分发挥作用,并确保您基于证据和理性做出理性的决定,而不是基于情感和恐惧。

分流

在这里,有效利用有限的资源以最低的成本获得最大的收益至关重要。尽早做出决定,哪些事情必须立即解决,哪些可以等待一会儿(几小时,几天),哪些可以无限期地等待。还要学会认识到什么东西无法挽救且不值得保存(例如,路由器融化了一半,即使它是您唯一的路由器,您也无法保存,购买新的路由器并在事后收集或在现场找到可以解决的问题)暂时填补空白)。

保持情境意识

不要让您的注意力被一些有趣的问题或尚未完全了解的事情所困扰。始终专注于全局并着眼于最重要的事情。

使用科学方法

形成假设。确定如何检验该假设。收集数据以检验假设。还要查找确认数据。优化假设,并根据需要重复多次循环,直到您对假设有足够的信心采取行动为止。

务实

现在不是教条的时候。从灾难中恢复时,可以在这里或那里采取一些捷径。这实质上是在累积技术债务。在许多公司中,灾难性的失败意味着收入的灾难性损失。最好是让事情顺利进行,即使步履蹒跚,也不要轻描淡写,冒着公司生计的风险。与往常一样,这里的判断至关重要。有时候,用指点服务器机架上的机箱风扇是有意义的,有时候却不是。

照顾自己

您在这种紧急情况下工作了多长时间了?您最后一次喝水是什么时候?您上一次吃饭是什么时候?你醒了多久了?不要仅仅因为发生紧急情况而使自己筋疲力尽,请花时间保持水分,进食和休息(以防长时间漫长的跋涉)。

招聘帮助

几乎可以肯定的是,您公司中有很多才华横溢且有能力提供帮助的人才。小心不要让太多的人到处乱跑,并互相造成麻烦。也要警惕通过“射击”使人烦恼。寻找已经想要帮助的人,让他们从事有针对性的任务,并确保人们彼此交流。

通信

沟通至关重要。没有什么比未知更可怕。当人们只知道某个东西坏了而已时,一个虚假的声明将在X个小时内备份只是空洞的保证(在X个小时过去之后,即使事情仍然坏了,保证也更少)。游戏中的压力会引导您做出过于乐观的WAG时间估计,但这是错误的做法。不要只是说您正在为此而努力,也不只是说事情将在X时间之前解决。开放,展示您的过程,详细说明您的进度和挫折。提供对问题的了解,跟踪问题的过程以及修复问题的计划(尽管不要淹没细节)。表明问题不是棘手的,表明事情将最终得到解决,表明有能力的人解决这个问题,


2
很好- 如果可能的话,我也会增加招募人员的帮助
布伦特(Brent)2009年

@Brent啊,是的,我想补充一点。不过,我还没有找到该部分的正确措词。





8

首先检查基础知识,这似乎很愚蠢,但是类似

  1. 服务器设备的电源是否打开?(如果您在异地托管)
  2. 您的托管服务提供商崩溃了吗?

我知道当问题上游时,浪费大量时间寻找解决方案


2
是的-如果一切都失败了-检查数据中心-及其支持论坛。如果有30个人在线,那么通常只有3个人-真是风靡一时。
Alister Bulman

6

我ping的东西。之后,根据ping的结果,发生的变化会很大。


今天使用这种方法。许多PC无法打印。尝试到ping数据库服务器,确定。尝试ping打印机许可服务器,无响应。结果=服务器故障!
骗子2009年

好点;)我每天要做很多次,然后再做其他事情。这实际上节省了很多时间:P
Marc-Andre R.




2

请勿尝试修复任何问题。

确保您确切地知道真正的根本问题是什么。现在开始修复问题。如果有多个问题要解决,请仔细考虑哪些问题可以延迟(希望至少要等到下一个工作日!),现在绝对必须修复。

但最重要的是:一切正常后,请问为什么“一切都崩溃了”?您要怎么做才能防止这种情况再次发生?是否存在将使得解决方案更容易,如果它的任何步骤,再次发生?


1

让人们知道您正在努力,并在可能的情况下给他们一个估计情况何时会恢复正常的信息。

至于实际的故障排除,显然取决于出了什么问题。我通常会收集各种服务的“检查状态”脚本。


为什么将其降级?对我来说似乎是正确的一点。
2009年

这是一个很好的观点。预防是避免大灾难的关键;)
Marc-Andre R.

1

检查电缆!当一个简单的Eth0电缆交换可以解决问题时,我已经浪费了很多时间检查其他东西...


实际上,电缆不会无故消失。如果堆栈,包装或其他任何保护方法都不合适,并且每个人都可以使用它,实际上是的,电缆很可能会断裂。否则,没有任何理由。
Marc-Andre R.

0

您应该有应急计划。

基本系统的设计应具有自动故障转移功能,或具有记录并经过测试的恢复计划。

系统越重要,内置的弹性就越强,并且应该越自动化。

如果您没有,那不是很重要,是吧!


0

确保您的简历备份是安全的:)然后,

找到共同点。所有受影响的系统的共同点。

查找更改。您应该在组织中进行一些正式的变更管理。

新家伙在哪里...老板在哪里...?他们中有一个走捷径吗?(这只是快速重启服务器,可能会造成什么伤害)



0

从声明中很难提供一组特定的操作。您的第一步将基于:

  • 你在哪
  • 您能从与您联系的人身上榨取多少信息
  • 您手头有什么即时工具来进行故障排除(或寻求信息)
  • 您对网络的物理和逻辑路径的了解
  • 您有多少帮助(团队的一部分?还是寂寞的忍者?)

显然,您需要保持冷静,并对即将发生的问题保持警惕。您在网络故障排除方面的经验将告诉您,这很可能是微不足道的,例如:

  • 断开的电缆
  • 暗中进行的维护(另一项“修复”技术)
  • 您的CEO对公司彻底失败了,因为他/她用微波烤制的芝士披萨使笔记本电脑的无线连接丢失,从而使公司彻底注定失败。

话虽如此,在以下类别中也可能是严重的事情:

  • 物理运输(连通性)
  • 硬件(路由器\交换机\服务器)
  • 存储(无法访问\已损坏\已删除)
  • 软件(服务>错误配置\攻击\离线)

关键部分是您对该问题了解多少。你的参考点是什么?(从什么角度来看,“系统崩溃”了?)。



0

从简单开始,朝荒谬方向努力。

功率?

以太网?

程序正在运行?

...

外星人?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.