我的客户的一个站点上周(恰好在13日星期五!)遭到了直接雷击。
我不在现场,但是在现场与某人一起工作时,我发现了一种奇怪的损坏方式。两个互联网链接均断开,大多数服务器无法访问。大部分损坏发生在MDF中,但是一个光纤连接的IDF也丢失了交换机堆栈成员上90%的端口。有足够的备用交换机端口可用于在其他地方重新分配电缆并进行重新编程,但是当我们追踪受影响的设备时,出现了停机时间。
这是一个新的建筑物/仓库设施,服务器机房的设计中进行了大量规划。主服务器机房由APC SmartUPS RT 8000VA双转换在线UPS运行,并由发电机支持。所有连接的设备均已正确分配电源。异地数据复制和系统备份到位。
总的来说,(我知道)损害是:
- Cisco 4507R-E机箱交换机上的48端口线卡发生故障。
4成员堆栈中的Cisco 2960交换机失败。(糟糕……堆叠电缆松动)- Cisco 2960交换机上的几个不稳定端口。
- HP ProLiant DL360 G7主板和电源。
- Elfiq WAN链路平衡器。
- 一台Multitech传真调制解调器。
- WiMax /固定无线互联网天线和电源注入器。
- 众多PoE连接设备(VoIP电话,Cisco Aironet接入点,IP安全摄像机)
大多数问题与丢失Cisco 4507R-E中的整个交换刀片有关。其中包含一些VMware NFS网络和站点防火墙的上行链路。VMWare主机发生故障,但是一旦恢复了存储网络连接,HA就会照顾VM。我被迫重启/重启许多设备以清除时髦的电源状态。所以恢复的时间很短,但是我很好奇应该学习什么教训...
- 将来应采取哪些其他保护措施来保护设备?
- 我应该如何进行保修和更换?思科和惠普正在更换合同中的物品。昂贵的Elfiq WAN链路平衡器在其网站上有一个Blub ,基本上说“太糟糕了,请使用网络电涌保护器 ”。(好像他们期望这种类型的失败)
- 我从事IT工作已经足够长的时间,过去曾遭受过电风暴的破坏,但影响非常有限。例如廉价的PC网络接口或小型交换机的损坏。
- 我还可以采取其他措施来检测潜在的松动设备,还是只需要等待奇怪的行为浮出水面?
- 这是否只是运气不好,还是在灾难恢复中应该真正考虑的事情?
只要有足够的$$$,就可以在环境中构建各种冗余,但是在这里预防/考虑周全的设计与有效利用资源之间的合理平衡是什么?