刀片服务器机箱故障的可能性


48

在我的组织中,我们正在考虑购买刀片服务器-而不是机架服务器。当然,技术供应商也使它们听起来非常不错。我在不同的论坛上经常读到的一个问题是,从理论上讲服务器机箱可能会掉下来-因此,所有刀片服务器都将掉下来。那是由于共享的基础架构。

我对这种可能性的反应是拥有冗余性,并采用两个机箱而不是一个机箱(当然非常昂贵)。

一些人(包括HP供应商)试图说服我们,由于许多冗余(冗余电源等),机箱极不可能发生故障。

我这一边的另一个担心是,如果出现故障,可能需要备件-在我们所在地(埃塞俄比亚)这很困难。

因此,我想问一问管理刀片服务器的经验丰富的管理员:您的经验是什么?它们会整体崩溃吗?可能会失败的明智的共享基础架构是什么?

这个问题可以扩展到共享存储。我再次要说的是,我们需要两个存储单元,而不是仅一个。供应商再次说,这些东西非常坚固,不会出现故障。

好吧-我很难相信这样一个关键的基础架构在没有冗余的情况下非常可靠-但也许您可以告诉我,您是否有成功的基于刀片的项目,这些项目在其核心部分(机箱,存储... )

目前,我们看一下HP-IBM看起来太贵了。


3
好问题。我将在今天晚些时候发布我的答案和一些现实生活中的失败场景。
ewwhite 2012年

您是否看过戴尔C服务器中的功能?例如,C6100在2U盒中有4个节点,相当于4个插槽刀片服务器机箱。代替一台10U刀片服务器机箱,您可以获得五台2U机架服务器。不再是单点故障,而是失去了背板优势。HP / IBM可能有同等产品。
jqa 2012年

Answers:


49

完全机架故障的可能性很小...

在刀片服务器机箱完全失效之前,您可能会在工厂中遇到问题。

我的经验主要是关于HP C7000HP C3000刀片机箱。我还管理过Dell和Supermicro刀片解决方案。供应商有点重要。但总而言之,惠普的设备一直很出色,戴尔的产品还不错,而Supermicro的质量,弹性和设计欠佳。我从未在惠普和戴尔方面经历过失败。Supermicro确实发生了严重的故障,迫使我们放弃了该平台。在HP和Dell上,我从未遇到过完整的机箱故障。

  • 我发生过热事件。在同一地点的设施中,空调无法正常工作,导致温度升高到115°F / 46°C达10小时。
  • 电涌和线路故障:丢失A / B馈电的一侧。个别电源故障。我的刀片服务器设置中通常有六个电源,因此有足够的警告和冗余。
  • 单个刀片服务器故障。一台服务器的问题不会影响机箱中的其他服务器。
  • 机箱内 ...

我已经看到了多种环境,并受益于在理想的数据中心条件以及一些较粗糙的位置进行安装。在HP C7000和C3000方面,主要要考虑的是机箱是完全模块化的。组件的设计将组件故障对整个装置的影响降到最低。

像这样... C7000的主要机箱由前,(被动)中板和背板组件组成。结构外壳将前后组件简单地保持在一起并支撑系统的重量。几乎每个零件都可以更换...相信我,我分解了许多零件。主要冗余是风扇/冷却,电源和网络管理。可以配对管理处理器(HP的Onboard Administrator)以实现冗余,但是服务器可以在没有它们的情况下运行。

在此处输入图片说明

完全填充的机柜-前视图。底部的六个电源在机箱的整个深度运行,并连接到机箱背面的模块化电源背板组件。电源模式是可配置的:例如3 + 3或n + 1。因此,机箱绝对具有电源冗余。 在此处输入图片说明

完全填充的机柜-后视图。背面的Virtual Connect网络模块具有内部交叉连接,因此我可能会失去一侧或另一侧,并且仍然保持与服务器的网络连接。有六个热插拔电源和十个热插拔风扇。 在此处输入图片说明

空机箱-前视图。请注意,外壳的这一部分实际上没有任何内容。所有连接均直通模块化中板。 在此处输入图片说明

中面板组合件已卸下。请注意底部的中面板组合件的六个电源。 在此处输入图片说明

中板组装。这就是魔术发生的地方。请注意16个单独的底板连接:每个刀片服务器一个。我曾在不杀死整个机箱或影响其他服务器的情况下使单个服务器插槽/托架发生故障。 在此处输入图片说明

电源背板。标准单相模块下方的3ø单元。我更改了数据中心的配电,只是更换了电源背板以应对新的供电方式 在此处输入图片说明

机箱连接器损坏。该特定的外壳在组装过程中掉落,使针脚脱离了带状连接器。好几天都没有注意到,导致运行中的刀片服务器机箱陷入了火... 在此处输入图片说明

这是中板带状电缆的烧焦的残骸。这样可以控制一些机箱温度和环境监控。其中的刀片服务器继续运行,没有发生任何事件。受影响的零件在我计划的停机时间内有空更换了,一切都很好。 在此处输入图片说明


C7000为+1。在过去的两年中,我们一直运行稳定,并且在机箱或刀片上从未出现任何硬件或性能方面的问题。
tombull89

1
必须同意这一点-我们有戴尔提供的各种刀片服务器机箱,它们几乎是防弹的。我认为我们在一个机箱上有一个控制器模块发生故障,其最终结果是,在获得戴尔支持以运送我们另一台控制器和一名工程师来安装它的那一天,我们无法远程管理机箱本身。由于故障或更换控制器的操作,没有实际的刀片停机时间。
罗伯·摩尔

1
我必须同意@ewwhite。我已经连续8年不间断地运行c7000,而机箱没有任何故障。由于暖通空调故障,我们甚至让它们在130'F下运行了几个小时,而且没有发生任何故障。要记住的一件大事是,一定要在多个电源面板上分配电源负载,并在多个交换机上分配网络,以消除单点故障。我们唯一遇到过的问题就是刀片服务器硬盘驱动器,但是您在传统服务器中也看到了这一点。
mrTomahawk

20

八年来,我一直在管理少量的刀片服务器,但是我还没有遇到导致整个刀片系统脱机的系统级故障。由于电源相关的问题,我已经非常接近了,但是还没有发生机箱外的故障,这并不是由于外部原因造成的。

您观察到机箱确实代表了一个单故障点是正确的,尽管这些天确实在机箱中建立了大量的冗余。我使用的所有刀片系统都具有对刀片的并行供电,并且有多个网络插孔通过单独的路径,而对于光纤通道,从刀片到机架后部光端口的路径为多个。甚至机箱信息系统也有多条路径。

通过适当的网络工程(冗余NIC使用,用于存储的MPIO),单问题事件完全可以幸免。在使用这些系统的时候,我遇到了以下问题,没有一个问题影响多个刀片(如果有):

  • 刀片机架中有两个电源出现故障。其他4个中有足够的冗余来支持负载。
  • 三相电源松动。如今这些电源很少见,但其他两个阶段有足够的容量来支撑负载。
  • 丢失机箱间管理环路。多年以来,在另一个电话上的供应商技术人员注意到它之前,就是这样。
  • 完全丢失机箱间管理环路。我们失去了管理控制台访问权限,但是服务器一直在运行,就好像什么都没错一样。
  • 有人不小心重新启动了机架后网络底板。该机箱中的所有设备均使用冗余NIC,因此不会中断服务。所有流量都移至另一个背板。

TomTom关于成本的观点是正确的。为了达到完全的成本平价,您的刀片服务器机箱必须完全装满,并且可能不使用机架后置交换机之类的特殊物品。刀片架在您真正需要密度的区域是有意义的,因为您的空间有限


除了SuperMicro Twin体系结构,每个TU可以为您提供两台计算机,每台计算机具有两个插槽,这与MOST刀片式服务器所提供的类似。它绝对是非常密集的;)我所知道的唯一更高的密度是使用常春藤桥的戴尔刀片服务器……但是相比之下它们受到的限制更大。
TomTom 2012年

@tomtom,但是超微双胞胎提供多余的脓液吗?我们只是构建了一个,而我在任何地方都没有看到该选项。我们买了一个备用的冷备用电源,以防万一。
Jeff Atwood

@JeffAtwood,我还没有在SuperMicro的1U双胞胎中看到冗余的PSU,但是他们的2U 4节点双胞胎产品线确实有它们。 实例
查尔斯

还有,谁在乎。机架中有备用电源。更换需要几秒钟。
TomTom 2012年

14

这个问题可以扩展到共享存储。我再次要说的是,我们需要两个存储单元,而不是仅一个。供应商再次说,这些东西非常坚固,不会出现故障。

其实不行 到目前为止,您所关心的问题是有道理的,这句话使它们成为“阅读眼前的东西”。具有完全复制的HA是存储单元的已知企业功能。关键是SAN(存储单元比刀片服务器机箱要复杂得多,而刀片服务器机箱最终只是“愚蠢的金属”。刀片服务器机箱中的所有部件,除了某些背板都是可更换的,所有模块等都是可更换的,并且单个刀片是没有人说刀片中心可以使刀片具有高可用性。

这与SAN应该有100%的时间(处于一致状态)的状态有很大不同,因此那里有诸如复制等内容。

那样说:注意您的电话号码。我已经考虑购买刀片已有一段时间了,它们从未取得过财务上的意义。与普通计算机相比,机箱太昂贵了,刀片服务器并不便宜。我建议将SuperMicro Twin架构作为替代方案。


双胞胎和双胞胎(2U 4节点)是刀片的理想选择。英特尔还生产双胞胎和双胞胎服务器。
查尔斯

@查尔斯你知道新的胖双胞胎吗?8 U中有8台机器;)
TomTom 2012年

我看过一个,但还没有机会玩或评估它。
查尔斯

4

我曾经使用过的刀片服务器是IBM的刀片服务器。这些特定的组件完全是模块化的,并且内置了很多冗余。因此,如果发生故障,它将成为PSU或模块化交换机等组件之一。但是同样,即使在这些组件中,也存在冗余。

自从接触IBM刀片服务器以来,我从未见过完全失败。

我怀疑与其他品牌一样,它们的建造方式也会类似。
与供应商交流并进行大量阅读也是个好主意。
这是一笔巨大的投资。


1

导致同一机箱中的多个刀片服务器故障的故障与导致同一机架中的多个服务器故障的故障具有可比性(可能性和原因)。

进行初始设置以最大程度地减少单点故障(两个单独的交流电源,每个交流电源可以处理整个负载,并运行到单独的DC电源上,这样,一半电源就可以处理整个负载;两个单独的网络附件,两个它可以处理整个预期的负载等),而取出机箱中所有刀片或机架中所有2U服务器的东西之间的差异很小。


1

我在不同的论坛上经常读到的一个问题是,从理论上讲服务器机箱可能会掉下来-因此,所有刀片服务器都将掉下来。那是由于共享的基础架构。

确实!大约5年前,在管理两个HP Proliant p-Class刀片式机箱时,我几次遇到机箱范围的问题。

如果刀片服务器已经关闭,我将无法打开它们(服务器通常不会关闭,但对我们来说却成为一个非常现实的问题)。我的服务器突然关闭,无法再次打开。最后,我关闭了所有服务器,并且无法再次启动。

我记得,几乎所有问题都归因于电源背板或控制器背板不良。我们多次更换了这些刀片架,而我从技术人员那里得到的非特定的,不公开的消息是,他们在这一代刀片式机箱中遇到了同样的问题。

当时我决定,如果我在将来的购买中有话要说,那么刀片服务器的优势根本不值得冒险。

就此而言,快进我的下一个雇主和我的当前雇主。他们已经在运行HP Proliant c系列机箱,因此我对刀片服务器略带温暖的感觉并不重要。在处理c-Class机箱的5年中,我从未经历过像p-Class那样的经历,在p-Class上,整个机箱对我来说都是失败的。他们一直在运行,没有重大问题。

(除了暴风雨使雨水穿过屋顶,四层楼高,计算机房的密封处的小孔,电缆向下并进入机箱的时间)


-1

DELL和HP Blade机箱都没有冗余的中板。这就是IBM Bladecenter被证明是赢家的地方。据我所知,它是唯一提供冗余中间板的刀片服务器机箱。尽管HP为刀片提供了一套出色的管理软件套件,但我们为公司购买了Bladecenter E,只是为了避免整个机箱出现单点故障。


这确实是IBM市场营销资料告诉我的;他们是唯一拥有完全冗余刀片解决方案的供应商。但是,在读取该线程中的其他消息之后,HP解决方案似乎也具有此功能。
Martijn 2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.