服务器机房中有东西在燃烧。如何快速识别它是什么?


454

前几天,我们注意到服务器机房发出强烈的燃烧气味。长话短说,它最终成为UPS单元中正在燃烧的电池模块之一,但花了好几个小时才能够弄清楚。我们能够弄清楚的主要原因是,UPS显示屏最终显示需要更换模块。

问题出在这里:整个房间充满了气味。进行嗅探测试非常困难,因为气味已经渗入所有东西(更不用说它使我们头昏眼花了)。我们几乎错误地关闭了生产数据库服务器,因为它是最臭的地方。活力似乎还不错(CPU温度显示60摄氏度,风扇速度也不错),但我们不确定。碰巧的是,烧坏的电池模块与机架上的服务器的高度大致相同,并且只有3英尺远。如果这是真正的紧急情况,我们将惨败。

实际上,实际的服务器硬件被烧毁的机会很少发生,而且在大多数情况下,我们将UPS视为罪魁祸首。但是,如果使用带有多个设备的多个机架,它很快就会成为一种猜测游戏。如何快速准确地确定实际上正在烧毁的设备?我意识到这个问题在很大程度上取决于环境变量,例如房间大小,通风,位置等,但是任何输入都会受到赞赏。


34
@DeerHunter好,谢谢,这是一天的结束,建筑中只有很少的人。感谢您的建设性批评,我将确保让我的主管知道她决定维持系统正常运行时可能面临的生命。
乍得哈里森

12
@hydroparadise-有人必须敢说“ 停止,我们没有正确地做这件事”。如果您的主管不了解安全规则,除了做些脊椎手术和不屈服于弯腰的冲动之外,实际上没有什么可以做的。
Deer Hunter

112
@DeerHunter:当您闻到燃烧的东西时,适当的反应是什么?没有可见的烟雾,只有燃烧的气味。您是否关闭了整个数据中心,将其排空了几个小时,然后一一打开服务器,直到异味再次出现?一个25机架的小型数据中心可以检查1,000台服务器,这会导致“异味”的大量停机-OP没有报告可见的烟雾或火灾。
约翰尼,

24
@Johnny-引用操作:“整个房间充满了气味。进行嗅探测试非常困难,因为气味已经渗入了所有东西(更不用说使我们头晕了)”回答您的问题-是的,您必须排空房间,并系统地进行故障排除。任何其他事情都是不负责任的。
Deer Hunter

14
那么,那些批评OP对气味处理的批评是否暗示着气味与火/烟之间的紧迫性没有区别?如果您闻到房子里有东西燃烧的气味,但看不到烟雾,也听不到警报,您是否将您和您的家人赶出屋子并拨打911?
trpt4him 2013年

Answers:


383

普遍的共识似乎是您问题的答案分为两个部分:

我们如何找到有趣的燃烧气味的来源?

您已经很好地确定了“如何”:

  • “嗅探测试”
  • 寻找可见的烟雾/阴霾
  • 使用红外热像仪在房间中走动以发现热点
  • 检查监控和设备面板上是否有警报

您可以通过多种方式来提高发现问题的机会-改进监控通常是最容易的。一些问题要问:

  • 您是否从设备获得温度和其他健康警报?
  • 您的UPS系统是否向监控系统报告故障?
  • 您是否从配电设备收到电流消耗警报?
  • 房间烟雾探测器是否正在向监控系统报告?(可以吗?

什么时候应该进行故障诊断而不是击中“大红色开关”?

这是一个更有趣的问题。
击中红色的大开关可能会急忙使您的公司损失巨额资金:清洁剂的释放可能会花费数万美元,并且在紧急关闭电源之后发生中断/恢复的费用(EPO,“放弃房间” )可能是毁灭性的。
您不希望掉落数据中心,因为电源中的电容器突然弹出并散发出房间的味道。

相反,服务器机房火灾可能使公司的数据/设备(更重要的是员工的生命)损失。
对“那可笑的燃烧气味”进行故障排除绝不应该优先于安全,因此,有一些明确的规则来对“点火前”状况进行故障排除很重要。

遵循的准则是我的个人限制,在没有其他明确定义的程序/规则的情况下(或除了这些规则之外),我会受到限制 -它们为我提供了很好的帮助,可能会为您提供帮助,但也很容易使我被杀或明天开除,请自担风险。

  1. 如果发现冒烟或着火,请放下房间。
    不用说,还是这样吧:如果有活跃的火灾(或烟雾表明很快会出现),请撤离房间,切断电源,并释放火抑制系统。
    可能存在异常(行使一些常识),但这几乎总是正确的操作。

  2. 如果您要进行故障排除,请务必至少让其他人参与。
    这有两个原因。首先,您不想在数据中心中四处走动,突然间,在您要走的那排上放了一个机架,没人知道您在那里。其次,另一个人是您进行故障排除或放弃房间的健全性检查,并且如果您致​​电致电Big Red Switch,您将获得第二人同意这一决定的好处(有助于避免职业限制)以后是否有人质疑的决定)。

  3. 故障排除时
    采取谨慎的安全措施确保您始终有逃生路径(行的开口端和通往出口的清晰路径)。
    让某人驻守在EPO /灭火发布中。
    随身携带灭火器(请携带哈龙或其他清洁剂)。
    记住上面的规则1。
    如有疑问,请离开房间。请注意呼吸:使用呼吸器或氧气面罩。如果发生化学火灾,这可能会挽救您的健康。

  4. 设置一个限制并坚持下去
    更准确地说,设置两个限制:

    • 条件(“我会让它变得更糟吗?”)和
    • 时间(“我将继续尝试找到问题的风险有多久?”)。

    您设置的限制,也可以用来让你的团队开始患处的有序关闭,所以当你DO拉你不崩溃一群活跃的机器的电源,恢复时间会更短,但要记住,如果有序关闭的时间太长,您可能必须以安全为名让一些系统崩溃。

  5. 相信您的直觉
    如果您随时担心安全问题,请取消故障排除并清理房间。
    您可能会或可能不会因直觉而掉下房间,但是出于(相对)安全的考虑,在房间外重新分组是明智的。

如果没有迫在眉睫的危险,则可以选择采取当地的消防部门,然后再采取诸如EPO或清洁剂释放之类的严厉措施。(他们可能仍然告诉您这样做:他们的任务是保护人员,然后是财产,但显然,他们是扑救火灾的专家,因此您应该按他们说的做!)

我们已经在评论中解决了这个问题,但也可能会在一个答案中进行总结-@ DeerHunter,@ Chris,@ Sirex,以及其他许多人为讨论做出了贡献


30
我去了大学,安装了一个新的数据中心。他们实施了高度复杂的EPO /灭火系统。它所保护的设备价值数百万美元,还用于学校医学部分的数百万美元研究。显然,如果它需要的红色按钮会被击中,但他这样说,如果红色按钮打,只是重置它是接近$200000美元。纳税人美元,您可以肯定地说,如果在不需要时按下该开关,则按下该开关的人将不再有工作。
瑞安

28
伙伴系统+1。我认为有些DC可以使用EPO来转储灭火,这有点令人发疯。在很多情况下,您都希望EPO,而又不想在遭受电击的家伙身上扔掉halotron。EPO是一项严肃的交易,但不是“破坏DC交易中的所有交易”,至少不应该。华盛顿特区的人们应该希望对红色大按钮和灭火系统有足够的了解,以权衡按下按钮的效果。EPO的实际上可能停止火和保存DC,例如。
克里斯

13
我没有提到的一个重要注意事项是,大多数情况下,当某件事发生故障以便散发出燃烧的气味时,燃烧的任何东西都会在检测到气味之前自行熄灭,并且不会在发生故障的设备外部燃烧任何东西。有时,只要有电,一台设备就会继续冒烟,但是,如果发现有烟,应该可以识别该设备,仅切断设备的电源,然后查看烟是否会清除或持续恶化。
2013年

1
@ryan:如果按红色的大按钮要花那么多纳税人钱,负责人希望已经制定出解决与当地消防部门的小事故的计划,而这不涉及危害雇员的危险。
Christoph

3
@ryan这让我想起了我最近看到的有关CERN的电视报道:相机团队和记者真的被带到了系统的胆量,有一个相机人员几乎用背包撞了一个红色的紧急关闭按钮-给考虑到重新启动成本的参谋人员心脏病发作...
Hagen von Eitzen'Apr

183

热像仪可以完成这项工作,并让您确定过热的地方。这样的设备可以让您识别烟雾弥漫的房间中火灾或燃烧的起源。


30
如今,热像仪的需求量不大,如果您要运行一个大型服务器机房,那么它们是值得拥有的工具。
rackandboneman 2013年

16
TIC并不是那么昂贵,并且在数据中心或大型服务器机房中非常有用。不仅在像过热电缆或设备,但问题的情况下也可以作为问题的预防和早期发现,制冷优化,空气流量等
ddalcero

39
这样的激光测温枪是一种廉价的替代产品
MichaelHouse 2013年

4
@mfinni电工也经常有热像仪。(当我在一家托管公司工作时,每年或在进行任何主要布线工作后,对配电板进行热成像检查都是标准的)。
voretaq7 2013年

3
热像仪具有很大的局限性:1.视场可能会阻止其使用。2.您的环境可能非常密集。[会发现大火,但不小的火] 3.需要平均温度才能确定阈值
monksy 2013年

138

您不做任何已经说过的事情。您离开危险环境,是因为从整个房间抽出的任何东西都会危害您的健康,甚至可能使您的肺部混乱。如果您找不到在房间里燃烧的刺鼻气味,请致电(911 | 112 | 999 |无论您遇到的紧急情况,请拨打紧急电话),让火(公司|大队)将其扑灭。装瓶装的空气。

电脑零件中包含各种有趣的化学物质,包括和许多塑料外壳。请注意,我所做的所有链接都说明了低强度曝光如何造成持久的损害,甚至导致快速死亡。这是一种可能立即威胁生命和健康的环境

...的确如此,如果有什么东西在燃烧,请不要花数小时来闻烟气。如果您无法识别它并立即采取行动将其包含,请出去。


18
应该补充的是,如果这发生在一个“真实的”数据中心中,该数据中心集成了烟雾探测器和空调,并安装了灭火系统,则火警警报将会响起,房间将被密封并自动充满氩气或二氧化碳,因此甚至没有想过跑来跑去和嗅探设备的想法。
the-wabbit

8
@ syneticon-dj这取决于安装的检测器的类型。电离探测器可能会触发灭火,但我曾在有光学烟雾探测器的地方(目前是主机设备)工作-那些探测器在跳闸前需要有可见烟雾(或至少有良好的雾霾)。
voretaq7 2013年

3
我希望我能对此再投票。冒着争议的风险,“聘请专业”消防员是唯一的前进之路。
user619714 2013年

19
是的,作为一名前消防员,如果没有装备,我不会呆在那里。即使发生火灾,我们也被训练以保持有毒气体的状态。如果我要致电专业人士,您也应该这样做!
杰夫·弗兰

1
@Michael我见过的设计并不依赖于天花板烟雾探测器,而是在回风中装有光电探测器。我唯一看到它触发的是在测试例行程序中,其中已分离了氩气系统,并且在其中一个壁橱中放置了烟雾源。它按我期望的那样工作。值得庆幸的是,我从来不必面对真正的大火。
the-wabbit

76

如果您在UPS上进行了适当的监控(通常是通过SNMP),则设备本身应该会在监控系统上敲响钟声。如果没有,请与您的供应商联系。它出现故障或您的监视系统配置不正确。

如果活动的东西实际上正在燃烧,则应该以某种方式对其进行抱怨,或者只是脱离网络,这也将引起警报。

如果它像实际的电源线一样通过绝缘层燃烧,而不是在智能PDU上,那么我们回到您的原始问题,即“如何找到燃烧的东西?” 我认为正确的答案是“点击EPO并找出答案。您的生产服务器可能不足以冒生命危险。”


13
EPO是什么意思?
Midhat

39
紧急关闭电源...红色大按钮会切断房间的所有电源。主要是因为它着火了。
Grant

11
强调+1表示可以投票+1,000。按下按钮,撤离,等待,稍后再整理。在存在火和烟的情况下照常做事(并尝试对任何事物进行故障排除)是工程师可能犯的最严重错误之一。
Deer Hunter

36
@chris我必须在“ EPO,请假,等待”上表示不同意-在充满生产设备的房间中激活EPO和/或清洁剂释放通常是我们喜欢的“ 职业限制举措”。如果没有进行任何初步检查的某些设备所发出的活跃的,可见的火或浓烟,通常就是正确的选择。当然,您应该绝对准备在调查中的任何时候按一下适当的红色按钮,从房间中抽出来。
voretaq7 2013年

13
甚至在UPS面板上显示“更换模块”的那一刻之前,甚至是一个完美的监视系统也可能没有意识到这一点-据说您当然希望监视系统引起您的注意。下次,某个模块可能在星期五的19:30发生故障(没人在附近)时,监视警报将使您重新介入并处理问题,直到它发展为全面的紧急情况。如果您可以将监视与FACP配合使用,则烟雾和/或热量传感器甚至可能警告您有关绝缘材料会烧毁电源导轨等。
voretaq7 2013年

43

这是其中一种情况

XKCD Die Hard系统管理员

不适用,您应该致电专业人士

消防员的防护装备

其他任何事情都只是愚蠢的。


这显然是最好的答案。:)
市民

@Navin不,不是消防部门的人吗?
user619714 '16

40

作为以前从事电子技术工作的人,我曾经历过“燃烧的气味”而不是火。这并不少见。

我不会因为气味而关闭数据中心。烟雾是另一回事,确实有东西在燃烧(通常,但是豌豆大小的钽电容器也可以充满烟雾)。令人惊讶的是,电源中油炸的成分能散发出多少气味。

TIC或IR温度计(一种有用的工具,比TIC便宜得多)不一定会显示出来,因为该组件根本不会产生太多热量,而且它在箱子内。但是,请检查设备是否无法正常运行,并使用监视工具。对于这样的气味,那么95%的时间将是影响整个设备性能的电源。


3
+1,电源吹断是常见的。在大多数具有高气流速率的数据中心中,烟雾被迅速吹走,并且很难找到气味的来源。但是,在一个小房间里,气味可能很差,并且会迅速散布到整个房间。
Stefan Lasiewski 2013年

19

我喜欢红外成像或温度计的答案,但也许还有帮助的是真正的“气味检测器”。毕竟引起您注意的是气味。烟雾,热量,红外线等都是替代物。

事情是这样的一个:从Shinyei 。我个人从未使用过它们,甚至从未在数据中心中使用过它们。但至少从理论上讲,它应该是一种简洁的工具。如果您有钱可以花在这个Gizmo上。

http://www.sca-shinyei.com/odormeterhttp://www.intopsys.com/products/cyranose.html?gclid=CNXXzOrLs7YCFUws6wodViYApQ

它为您提供气味强度以及分类。因此,应该可以闻到气味。魔鬼当然在细节上。它有多敏感,掩盖了虚假的背景气味等。

与纯粹基于温度的测量相比,优点之一是,气味通常会在更早的点或阈值处出现。或者,如果过热的部件被身体/隐藏的布线等遮盖,则比视线热点更容易检测逃逸的分子。

另一种情况是与热量无关的气味。之前我们有冷却回路泄漏,而且冷却液的气味也很奇怪。我什至不愿讨论现在古老的管道中啮齿动物死亡的案例。:)

我惊讶于这些传感器的灵敏度。可以检测到亚ppm级水平的H2S /硫醇等(通常是罪魁祸首)。

在此处输入图片说明

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.