普遍的共识似乎是您问题的答案分为两个部分:
我们如何找到有趣的燃烧气味的来源?
您已经很好地确定了“如何”:
- “嗅探测试”
- 寻找可见的烟雾/阴霾
- 使用红外热像仪在房间中走动以发现热点
- 检查监控和设备面板上是否有警报
您可以通过多种方式来提高发现问题的机会-改进监控通常是最容易的。一些问题要问:
- 您是否从设备获得温度和其他健康警报?
- 您的UPS系统是否向监控系统报告故障?
- 您是否从配电设备收到电流消耗警报?
- 房间烟雾探测器是否正在向监控系统报告?(可以吗?)
什么时候应该进行故障诊断而不是击中“大红色开关”?
这是一个更有趣的问题。
击中红色的大开关可能会急忙使您的公司损失巨额资金:清洁剂的释放可能会花费数万美元,并且在紧急关闭电源之后发生中断/恢复的费用(EPO,“放弃房间” )可能是毁灭性的。
您不希望掉落数据中心,因为电源中的电容器突然弹出并散发出房间的味道。
相反,服务器机房火灾可能使公司的数据/设备(更重要的是员工的生命)损失。
对“那可笑的燃烧气味”进行故障排除绝不应该优先于安全,因此,有一些明确的规则来对“点火前”状况进行故障排除很重要。
遵循的准则是我的个人限制,在没有其他明确定义的程序/规则的情况下(或除了这些规则之外),我会受到限制 -它们为我提供了很好的帮助,可能会为您提供帮助,但也很容易使我被杀或明天开除,请自担风险。
如果发现冒烟或着火,请放下房间。
不用说,还是这样吧:如果有活跃的火灾(或烟雾表明很快会出现),请撤离房间,切断电源,并释放火抑制系统。
可能存在异常(行使一些常识),但这几乎总是正确的操作。
如果您要进行故障排除,请务必至少让其他人参与。
这有两个原因。首先,您不想在数据中心中四处走动,突然间,在您要走的那排上放了一个机架,没人知道您在那里。其次,另一个人是您进行故障排除或放弃房间的健全性检查,并且如果您致电致电Big Red Switch,您将获得第二人同意这一决定的好处(有助于避免职业限制)以后是否有人质疑的决定)。
故障排除时
请采取谨慎的安全措施确保您始终有逃生路径(行的开口端和通往出口的清晰路径)。
让某人驻守在EPO /灭火发布中。
随身携带灭火器(请携带哈龙或其他清洁剂)。
记住上面的规则1。
如有疑问,请离开房间。请注意呼吸:使用呼吸器或氧气面罩。如果发生化学火灾,这可能会挽救您的健康。
设置一个限制并坚持下去
更准确地说,设置两个限制:
- 条件(“我会让它变得更糟吗?”)和
- 时间(“我将继续尝试找到问题的风险有多久?”)。
您设置的限制,也可以用来让你的团队开始患处的有序关闭,所以当你DO拉你不崩溃一群活跃的机器的电源,恢复时间会更短,但要记住,如果有序关闭的时间太长,您可能必须以安全为名让一些系统崩溃。
相信您的直觉
如果您随时担心安全问题,请取消故障排除并清理房间。
您可能会或可能不会因直觉而掉下房间,但是出于(相对)安全的考虑,在房间外重新分组是明智的。
如果没有迫在眉睫的危险,则可以选择采取当地的消防部门,然后再采取诸如EPO或清洁剂释放之类的严厉措施。(他们可能仍然告诉您这样做:他们的任务是保护人员,然后是财产,但显然,他们是扑救火灾的专家,因此您应该按他们说的做!)
我们已经在评论中解决了这个问题,但也可能会在一个答案中进行总结-@ DeerHunter,@ Chris,@ Sirex,以及其他许多人为讨论做出了贡献