完全机架故障的可能性很小...
在刀片服务器机箱完全失效之前,您可能会在工厂中遇到问题。
我的经验主要是关于HP C7000和HP C3000刀片机箱。我还管理过Dell和Supermicro刀片解决方案。供应商有点重要。但总而言之,惠普的设备一直很出色,戴尔的产品还不错,而Supermicro的质量,弹性和设计欠佳。我从未在惠普和戴尔方面经历过失败。Supermicro确实发生了严重的故障,迫使我们放弃了该平台。在HP和Dell上,我从未遇到过完整的机箱故障。
- 我发生过热事件。在同一地点的设施中,空调无法正常工作,导致温度升高到115°F / 46°C达10小时。
- 电涌和线路故障:丢失A / B馈电的一侧。个别电源故障。我的刀片服务器设置中通常有六个电源,因此有足够的警告和冗余。
- 单个刀片服务器故障。一台服务器的问题不会影响机箱中的其他服务器。
- 机箱内火 ...
我已经看到了多种环境,并受益于在理想的数据中心条件以及一些较粗糙的位置进行安装。在HP C7000和C3000方面,主要要考虑的是机箱是完全模块化的。组件的设计将组件故障对整个装置的影响降到最低。
像这样... C7000的主要机箱由前,(被动)中板和背板组件组成。结构外壳将前后组件简单地保持在一起并支撑系统的重量。几乎每个零件都可以更换...相信我,我分解了许多零件。主要冗余是风扇/冷却,电源和网络管理。可以配对管理处理器(HP的Onboard Administrator)以实现冗余,但是服务器可以在没有它们的情况下运行。
完全填充的机柜-前视图。底部的六个电源在机箱的整个深度运行,并连接到机箱背面的模块化电源背板组件。电源模式是可配置的:例如3 + 3或n + 1。因此,机箱绝对具有电源冗余。
完全填充的机柜-后视图。背面的Virtual Connect网络模块具有内部交叉连接,因此我可能会失去一侧或另一侧,并且仍然保持与服务器的网络连接。有六个热插拔电源和十个热插拔风扇。
空机箱-前视图。请注意,外壳的这一部分实际上没有任何内容。所有连接均直通模块化中板。
中面板组合件已卸下。请注意底部的中面板组合件的六个电源。
中板组装。这就是魔术发生的地方。请注意16个单独的底板连接:每个刀片服务器一个。我曾在不杀死整个机箱或影响其他服务器的情况下使单个服务器插槽/托架发生故障。
电源背板。标准单相模块下方的3ø单元。我更改了数据中心的配电,只是更换了电源背板以应对新的供电方式
机箱连接器损坏。该特定的外壳在组装过程中掉落,使针脚脱离了带状连接器。好几天都没有注意到,导致运行中的刀片服务器机箱陷入了火...
这是中板带状电缆的烧焦的残骸。这样可以控制一些机箱温度和环境监控。其中的刀片服务器继续运行,没有发生任何事件。受影响的零件在我计划的停机时间内有空更换了,一切都很好。