当生产系统出现故障时,您如何保持冷静?[关闭]


26

这发生在我们大多数人身上...

你有一天上班。一切似乎都很正常-阳光明媚,鸟儿在鸣叫,但您在工作时会注意到一些奇怪的事情,使您想起Matrix中的déjàvu猫。

您进入办公室后,电话响了很多-但这可能只是他们在进行新的促销活动。当您注意到乌云笼罩着您时,您便安顿下来。

这需要您花费一些时间,但是您认识到云是您的老板。通常,他每天早上都会用“ Soooo Peeeeter,那些TCP / IP报告如何?”来检查您。例行公事,但今天他忘记了有关惯有举止的一切,并无礼地侵入了您的个人空间。没有“早安”,只有一些流口水,咕gr声和诅咒。他让您想起了一个穴居人,他正试图摆脱网状牙齿的老虎,恐惧和恐慌,所有这些都被压缩在一个紧紧的球中。您尝试破译他从昨天开始创建的新语言,并且您开始了解一夜之间发生了一些不好的事情-生产系统出现故障。

现在,您的系统通常在9到5的正常工作时间内供客户使用,但是无论出于何种原因,您都不会收到有关蜂鸣器的任何警报(对于30岁以下的人来说,蜂鸣器就像一部手机,只能鸣响并告诉你是谁的哔哔声。您需要记住下次再充电。

现在是上午8:45,系统必须在上午9点启动。每隔10秒钟,您的老板就会发出另一个诅咒,向您传达另一个客户进入系统存在问题。另外,现在有几位客户经理将悬停在您的老板上,试图让他了解客户是如何真正遭受痛苦的。

每个人都取决于您来尽快建立系统,同时又不断分散您的注意力,阻碍了您的进步。

在这种情况下您如何保持冷静?


34
第一步:在developers.stackexchange上撰写一个300字的帖子。
kubi

8
不是说现在正在发生。等一下,让我检查一下...
Mag20 2011年

1
这是开发人员特有的问题吗?如果您要负责的某件事不起作用,则无论该“问题”是什么,您都必须能够应对压力。
ChrisF

1
我发现,以我自己的经验,几乎没有大小的软件仓库可以执行任何灾难恢复演练。我把这个交给你的老板。如果您进行了练习,那么您就会知道会发生什么,并且可以对响应时间有所了解。您还可以评估是否可以自动化执行任何流程。如果您断电会怎样?如果办公室里起火了,会发生什么情况?您的服务器是托管在内部还是在外部等。确实,您需要强调制定一个连续性计划。
荒凉星球

3
这听起来像是TheDailyWTF条目的开头!
格兰特·

Answers:


43

在这种情况下,请老板让其他人远离您(这会让他在其他地方做些事情)来帮助您。

当它重新启动并运行时,请您的老板开会以评估并建立避免再次发生这种情况的程序。


1
+1。灾难恢复演练是评估反应和响应时间的好方法。真可惜,我看还不够。
荒凉星球

@DP是的,但是我们不能这样做,因为这意味着在进行演习时人员和设备无法用于实际的紧急情况(是的,我已经多次听到过这种说法)。当然,如果有足够的人员和设备,则可以在一组训练中训练一个团队,而另一组在训练中……
jwenting 2011年

@jwenting听起来像在保存火警警报。

9

首先要做的是尽可能分心地消除干扰。没有人能与在您的耳朵中苦苦挣扎的客户合作。如果您的老板是疯子,这说起来容易做起来难,但是如果是这样,您可能还是想考虑再找一份工作。

然后快速评估错误造成的实际损失,以及如何(如果有的话)迅速减轻错误。通过一些练习,您还可以快速检查日志文件,这将需要您制定行动计划。

如果问题很复杂,请集中精力解决最严重的问题。在采取行动之前,请先思考两三个步骤。另外,在执行操作之前,请确保您知道如何退出任何计划。

最重要的是:不要惊慌!


7

这样的情况在工业控制系统中很常见。生产线在深夜关闭,公司通常每分钟损失数百甚至数千美元,他们正在找您解决问题。您可以这样处理:

  1. 向他们解释你所知道的
  2. 说明您不知道的内容(但需要知道以解决问题)
  3. 说明您将如何发现不知道的东西
  4. 给他们一个估计需要多长时间(使用范围)
  5. 当您专注于执行计划时,请忽略周围的一切

6

第一件事是反复练习灾难恢复(没有人站在你的肩膀上),因此您确切地知道需要采取哪些步骤来诊断和解决问题,而不必诉诸SO来找出要做什么。一旦您对恢复技能充满信心,压力和压力就会大大降低。

接下来是在工作时让人们摆脱困境。您的老板希望有什么可以和他的老板一起去的。给他们一些有关您打算做什么以及可能需要花费多长时间的信息,然后定期提供进度报告,特别是如果您发现某些事情意味着要花比您告诉他们更长的时间。是的,进度报告需要花费大量时间进行修复,但是徘徊在老板和用户身上的时间甚至更多。我,我每次都去查看进度报告。一旦他们确信您将使他们保持最新状态,他们就会相信您会做更多的工作,让您更孤独。

如果用户将被阻止一段时间,则可以选择发送电子邮件给他们,或者在网站上发布通知,指出该网站已关闭维护,何时可以重试。(这可能是您可以给老板找人做的一项任务,也可以使他远离头发。)人们在知道某人正在解决该问题时就无法登录就显得不那么坦率了。解决问题后,如果您发送了电子邮件,请向同一组发送电子邮件以告知他们已解决。无法告诉您我见过多少次人们忘记了此操作,而用户仍然认为他们无法登录。目标不仅是解决问题,还需要让人们重新使用该系统。

深呼吸(深呼吸平息)并陷入问题。将您需要做的事情写下来是一件好事,因为在紧急情况下,有时您的大脑突触不会像平常一样迅速地获取信息。您不想看起来像个白痴在喃喃自语:“我知道我们有一本日志,它到底在哪里?”

如果您在支持生产系统的工作中,最好是那种通常在紧急情况下反应良好的人。我不确定您是否真的可以学习。如果有人在您面前骑着马摔下来(这不是我生活中的一个随机例子),并且躺在地上流血,那您是那种站着嘴张开的人吗?谁叫救护车,用绷带包扎出血,并指示某人赶马?如果您是第一类人,那么这可能不适合您。


2

告诉他们,这是您需要备用服务器的一个很好的理由,也就是说,第二台服务器的运行与主服务器相同,如果第一台服务器出现故障,则可以立即切换到第二台服务器。


我已经看到备用服务器已打开,并且它与主服务器存在相同的问题。它使硬件成本增加了一倍,增加了配置成本,并且完全浪费了费用。如果您要进行高可用性工作,那么可以,但是您必须适当调整硬件大小以解决问题。
Scott Whitlock

备份系统受到与主要系统相同的错误影响的一个(极端)示例是Ariane 5 Flight 501
Andre Holzner

2

当您到处都是对您提出的问题感到生气的人时,这已经够糟糕的了,尽管当您遇到的问题不是您提出的问题时,这是您的两倍。我对客户的配置不正确的错误不止一次,这意味着错误在于与客户的沟通(错误是客户不听还是营销人员解释得不好,您永远不会知道)。

您如何解释他们搞砸了?从来都不是一件容易的事,尤其是当您的老板喘不过气来的时候,因为他最想知道的就是假设客户永远是对的。

那么如何在这种情况下保持冷静?礼貌地提醒老板,上班越早,这个问题就越早得到解决。


1

通过将此事件看作是一次机会,可以通过使生产系统尽快恢复运行(如果不是在上午9点;-之前)来展示我(对企业)的价值。

显然,希望我没有将它弄坏;-)


1
  • sh_t发生
  • 必须有解决问题的办法
  • 如果世界上有人知道解决方案,我可以成为其中一员
  • 如果没有解决方案,恐慌将无济于事
  • 再次,sh_t发生

0

好吧,一定要问你的老板,当问题解决后,你会尽快与他联系;尽管在这种情况下,管理层通常会请其他人参与,以便尽快解决该问题,然后与“有关”人员去解决问题。至于商务,顾客通常是国王!


0

诸如此类的情况激励了我更多地对所有事情进行详尽的记录,并为应对任何情况提供了详尽的计划。

即使我们无法预测所有可能出现的问题,但我们可以做更多的准备,组织和记录工作。


1
我从未使用文档解决生产问题(即系统故障)。
Marcie

1
不,但是如果您需要查找某些内容(例如规格,表定义,服务器设置),则需要对其进行记录。
crosenblum 2011年

0

在第三次世界大战的5分钟警报中,我花了8年时间对B52G轰炸机进行维护。这让我看到了一切。

生产下降的系统很重要,但它不会杀死数百万人。

找出问题所在,找到原因,然后解决。与重要的人建立清晰的沟通,并及时通知他们。告诉老板您在做什么,什么时候可以更新他,可以防止持续不断的“已解决”消息和对话。

进行事后调查,弄清楚将来如何预防和限制此类事件的影响。

如果您在通话中,手机或蜂鸣器的电池没电了就非常不专业。这是一般情况,但是如果这是为我工作的一个人遇到的,将会进行认真的讨论,并且如果重复进行,他们将不再为我工作。是的,我是一个硬汉。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.