雷击后评估设备损坏-我是否应该计划更多?


55

我的客户的一个站点上周(恰好在13日星期五!)遭到了直接雷击。

我不在现场,但是在现场与某人一起工作时,我发现了一种奇怪的损坏方式。两个互联网链接均断开,大多数服务器无法访问。大部分损坏发生在MDF中,但是一个光纤连接的IDF也丢失了交换机堆栈成员上90%的端口。有足够的备用交换机端口可用于在其他地方重新分配电缆并进行重新编程,但是当我们追踪受影响的设备时,出现了停机时间。

这是一个新的建筑物/仓库设施,服务器机房的设计中进行了大量规划。主服务器机房由APC SmartUPS RT 8000VA双转换在线UPS运行,并由发电机支持。所有连接的设备均已正确分配电源。异地数据复制和系统备份到位。

总的来说,(我知道)损害是:

  • Cisco 4507R-E机箱交换机上的48端口线卡发生故障。
  • 4成员堆栈中的Cisco 2960交换机失败。(糟糕……堆叠电缆松动)
  • Cisco 2960交换机上的几个不稳定端口。
  • HP ProLiant DL360 G7主板和电源。
  • Elfiq WAN链路平衡器。
  • 一台Multitech传真调制解调器。
  • WiMax /固定无线互联网天线和电源注入器。
  • 众多PoE连接设备(VoIP电话,Cisco Aironet接入点,IP安全摄像机)

大多数问题与丢失Cisco 4507R-E中的整个交换刀片有关。其中包含一些VMware NFS网络和站点防火墙的上行链路。VMWare主机发生故障,但是一旦恢复了存储网络连接,HA就会照顾VM。我被迫重启/重启许多设备以清除时髦的电源状态。所以恢复的时间很短,但是我很好奇应该学习什么教训...

  • 将来应采取哪些其他保护措施来保护设备?
  • 我应该如何进行保修和更换?思科和惠普正在更换合同中的物品。昂贵的Elfiq WAN链路平衡器在其网站上有一个Blub ,基本上说“太糟糕了,请使用网络电涌保护器 ”。(好像他们期望这种类型的失败)
  • 我从事IT工作已经足够长的时间,过去曾遭受过电风暴的破坏,但影响非常有限。例如廉价的PC网络接口或小型交换机的损坏。
  • 我还可以采取其他措施来检测潜在的松动设备,还是只需要等待奇怪的行为浮出水面?
  • 这是否只是运气不好,还是在灾难恢复中应该真正考虑的事情?

只要有足够的$$$,就可以在环境中构建各种冗余,但是在这里预防/考虑周全的设计与有效利用资源之间的合理平衡是什么?


3
以下是一些很好的技术答案,但以我的经验来看,没有什么比好的保险单更胜一筹了。从字面上看是一种保险单。当然,这无助于避免问题,也不会阻止客户对您的尖叫,但是它确实有助于更换供应商不会碰到的故障设备。
马克·亨德森

@MarkHenderson Insurance正在经历...但是已经过去了6周,现在出现了一些小问题
ewwhite 2012年

Answers:


23

几份工作之前,我工作过的地方的一个数据中心是一架非常大的天线下方的一层。这种大而薄的金属物品是该地区最高的东西,每隔18个月左右就会遭到雷击。数据中心本身建于1980年左右,所以我不称其为最现代的东西,但是他们在处理雷电损坏方面有很长的经验(每次都要更换串行通信板,如果进行通信,这是一个尝试。电路板的系统在10年内没有任何新零件制造。

旧手提出的一件事是,所有杂散电流都可以在任何事物周围找到一条路,并且一旦桥接就可以在同一地传播。并且可以从空气间隙桥接。闪电是一种例外情况,在这种情况下,正常的安全标准不足以防止产生电弧,并且会尽其所能。它有很多。如果有足够的能量,它可以从悬挂式天花板网格(也许其中一根悬挂线悬挂在与水泥中的建筑物大梁相连的环路中)起弧,到达两柱式机架的顶部,然后从那里进入网络好东西。

像黑客一样,您只能做很多事情。您的电源都在它们的断路器上钳位了杂散电压,但是您的低压网络设备几乎没有,并且代表了一条极高能量的电流要经过的公共路径。


从理论上讲,我知道如何检测潜在的易碎试剂盒,但实际上却不知道。最好的选择也许是将可疑齿轮放到一个区域中,然后故意将房间中的温度升高到工作范围的高端,然后看看会发生什么。运行一些测试,加载其中的内容。将其放置几天。在任何先前存在的电气损坏上增加的热应力可能会消除一些定时炸弹。

它确实确实缩短了某些设备的使用寿命,但要找出哪种设备很难。电源内部的电源调节电路可能损坏了组件,并向服务器输送了肮脏的电源,您只能通过使用旨在测试电源的专用设备来检测到这种情况。


除了在屋顶上巨大避雷针的设施中有DC之外,雷击并不是我考虑的DR 。一般而言,罢工是很少发生的事情之一,它在“上帝的行为”下被洗牌并向前发展。

但是...你现在有一个。它表明您的工厂至少有一次符合条件。现在该评估一下您的设备在适当条件下的适应程度,并做出相应的计划。如果您现在仅考虑闪电对灾难恢复的影响,我认为这是适当的。


我昨天去现场评估。凌乱。我修理了机箱交换机,并检查了一些服务器的损坏情况。屋顶上的WiMax /固定无线天线是否有可能成为入口点?它所走的一切都受到影响:Antenna->PoE injector->WAN link balancer->Firewall->Dead Cisco 4507 linecard
ewwhite

1
听起来很可能。
mfinni 2012年

1
@ewwhite听起来很可能。那个旧DC被击中时造成的伤害非常相似。
sysadmin1138

我想在sysadmin1138的帖子中添加一些智慧(对不起,我现在还不允许评论,不想让它成为答案)...电源线上的接地插针是为了人类安全,而不是您的设备。在小型办公室;我将重要的机器(木箱,橡胶垫)和不接地的连接器/适配器UPS-> Wall放在远离地面的地方。我敢肯定,OSHA讨厌它,但是计算机喜欢它。当吊带断电并重新通电时,这也有帮助,因为这些电涌会杀死任何东西。我去过一栋大楼,当时很大的Libert UPS /逆变器爆炸了,不得不向他们的技术解释感性尖峰如何发生(
sirmonkey

7

我一直在考虑这个问题,因为它最近被编辑回到了首页的顶部。

我自由地规定,对于像sysadmin1138这样的人来说,他们必须处理对DC屋顶的大型雷击具有高度吸引力的安装,因此针对大雷击的特定应急计划很有意义。但是对于我们大多数人来说,这是一次性的情况,我认为更普遍适合我们其他人的答案可能会有一定价值。

可以想象各种电影情节的威胁;如果确实发生了这种情况,无疑会降低您的业务运营水平,但是没有理由认为发生这种情况的可能性更高。你知道那种事;飞机撞击/雷电/ 附近的油库爆炸 /其他任何可能但有背景危险的情况。

每个方案都有一个具体的缓解计划可以实施,但是我建议-按照我的上述规定-对这样做没有任何商业意义。正如Schneier试图在上述竞争中指出的那样,仅仅是因为您可以想象到可怕的事情并没有使它成为值得甚至是理想的计划的威胁。什么确实使良好的商业意识是通用的,记录,测试业务连续性计划。

您应该问自己,在各个时间段(例如24小时,96小时,一周,一个月)内,一次完整站点损失的业务成本是多少,并尝试量化每次发生的可能性。它必须是诚实的业务成本分析,并被所有业务部门所接受。我在一个工作地点工作,该工作通常被接受的停机时间为每小时550万英镑(那是20年前,当时500万英镑是很多钱);让这个数字大体上达成共识,使许多决定变得如此容易,因为这只是简单的数学问题。

您的预算是预计损失乘以该损失的年度机会;现在,您可以采取什么措施来缓解预算的威胁。

在某些情况下,这将运行到具有冷设备的完整备用数据中心,并准备24x7全天候运行。它可能意味着一个小的备用数据中心,以便客户交互可以继续进行,同时电话操作员的数量大大减少,并且预留位置网站警告中断。这可能意味着在您的主站点上进行了第二条冗余路由的Internet连接,直到需要时,它才会保持冷状态。正如马克·亨德森(Mark Henderson)所述,这可能意味着保险(但涵盖商业损失和实际恢复成本的保险);如果您可以将BC预算花费在一张纸上,如果发生灾难,它可以覆盖您的所有预期成本,那么买那张纸可能是合理的-但不要忘记考虑承销商的失败进入您的业务风险计划。这可能意味着将某些核心设备的维护合同升级为极其昂贵的四小时维修合同。只有您知道什么对您的业务有意义。

一旦有了这个计划,您就真的需要对其进行测试(基于保险的计划可能除外)。我曾在一个拥有完整的小型操作冷场的站点工作,准备从我们的主要机构开车到45分钟即可到达。当我们遇到关闭核心网络的问题时,我们最终尝试将其实时修复,而不是切换到冷站点,然后固定核心并削减。转换失败的原因之一是,我们不知道转换和削减需要多长时间。因此,没有人真正知道在做出削减决定之前应该允许多长时间不进行切换,所以-可以理解-做出决定的态度是沉默的。14小时后,当我们重新上线后,人们的头开始滚动。并不是因为停机本身,而是因为在设施上花了很多钱来减轻一天以上的停机,而这种停机正是在停机期间闲置的。

最后一点,请注意,不能保证业务计划的外包组件可以正常工作。您的高级管理层可能坐在那里,想着“ 如果我们将服务器放在云中,它们将一直存在,我们就可以解雇sysadmins ”。不是这样 云可能像其他任何事物一样失败; 如果您已将关键组件外包给提供商,那么您要做的就是消除估计这些组件发生故障的可能性的能力。SLA都非常好,但是除非得到实质性的不履行处罚的支持,否则它们是毫无意义的-如果您的提供者可以将这笔钱全部收回并退还您的服务费,为什么还要花额外的钱来保持可用不可用?为可靠起见,您的SLA需要附带一些罚款,这些罚款与您的停电业务所造成的成本大致相当。是的,这将大大增加外包成本;是的,这完全是可以预期的。


2
我应该补充一下... 自原始发布以来,此站点被闪电击中了三遍。原因可以追溯到设施中多个区域的电气接地不充分/不存在。我们起诉了承包商,保险公司负责了大部分更换工作。
ewwhite

2
抱歉,哎呀,我的开头规定也应该更清楚地适用于您;任何风险都超过背景的站点中,至少考虑专门针对该风险的缓解措施对我来说是有意义的。对于其他所有人,我的答案更多,他们可能会读您的问题并开始思考“ 好吧,我也没有闪电计划;也许我应该 ”。
MadHatter

6

它总是取决于您要花费多少。我没有足够的知识来详细介绍这一点,但是我去过一个大型制药数据中心,发生了雷击,并炸毁了一个应该是多重冗余的避雷器(并且设计正确) ,但实现错误,因此成功了。)

您的UPS可以防止的最大峰值是多少?它应该有一个评级。显然,罢工是直接造成的,甚至超过了罢工,或者UPS馈送装置周围漏了一些东西,例如地面不好。所以,也许你检查你的电源设计,确定另一个打击是多么的容易,比较停机X可能性与补救的成本,也许有电工给工厂一个很好的调查,以确保一切都正确接地-以及一些快速阅读节目安全接地/代码接地的强度不如防止雷击损坏的接地强度高。


UPS看起来不错。建筑物的多个部分都存在问题,但UPS的主要技术规范规定“全时多极噪声过滤:0.3%IEEE浪涌通过:零钳制响应时间:符合UL 1449”
ewwhite

好的听起来不错。如果您的主电源稳定,则可能通过其他方式将其插入。
mfinni 2012年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.