您在哪里找到您的MTBF数据?


9

平均两次故障之间的时间可能很难解释,但是如果您有一些硬数据,则可以使用大量的统计方法。

麻烦的是,没有人再报告他们的MTBF编号。(无论如何,除了硬盘驱动器制造商。)

在哪里去寻找组件和服务器的MTBF的数据?


我很想知道您如何使用MTBF数据。
pooter博士

Answers:


2

为什么MTBF没关系

两次故障之间的平均时间不如不可纠正的错误率重要。MTBF处理零件的完全故障,读取驱动器。但是,当单个错误位会引起RAID 5紧急情况并使热备份发挥作用时,该数字就没有意义。

尽管近年来用于专业级和消费者级驱动器的MTBF增长了一个数量级,但不可纠正的错误率保持相对恒定。估计此速率为10 ^ 14位,因此对于消费类SATA驱动器,每12 TB读取一个位。

为什么您应该在RAID 5阵列上放松睡眠

因此,这是新品牌2Tb驱动器的6次通过。读取12Tb数据需要多长时间?该驱动器的时间比MTBF少得多。

http://storagemojo.com/2008/02/18/latent-sector-errors-in-disk-drives/

更令人担忧的是,在由如此大的驱动器组成的RAID 5阵列上可能会出现两次读取失败的情况。对于具有7个1Tb驱动器的RAID 5阵列,在进行RAID重建时每秒可能发生读取故障的可能性为50%。

http://blogs.zdnet.com/storage/?p=162


您可能总是可以使用RAID6吗?
Chopper3

3
很好的答案,但只涉及硬盘驱动器
马克·亨德森

@ Chopper3,是的,RAID6确实可以改善这种情况,但是一旦您将两个磁盘专用于奇偶校验,将第三个磁盘专用于热备用,则在7个驱动器阵列上,您将接近与RAID10阵列相同的空间。
戴夫·切尼

我不仅在寻找硬盘驱动器上的数据。整个服务器仍然会不时地发生故障,因此值得多久测量一次。

1

人们认为MTBF数据不适用于复杂的系统,真是可惜。真正的问题(afaik)是制造商没有其硬件模块的MTBF数据。这些数字应保留所有权利。戴尔说:“戴尔不再列出其服务器的特定MTBF。” 实际上是残暴的!他们可能还说:“我们的产品确实不够可靠,无法用于需要MTBF数字的地方”。

可靠性工程师(或戴着RE帽子的家伙)应该限制可用性研究的范围。这通常仅限于硬件模块。

至于构成故障的分类……这就是我们执行FMECA分析的原因。

当然系统是复杂的,并且故障模式包括软件故障,但这通常不是研究范围。我们需要硬件MTBF数字。请您的推销员提供此信息。将其提供给您是他们的技术责任。如果他们拒绝或避开,请到具有电信级服务器且具有规定的硬件可用性指标的地方。


供应商必须发布MTBF的问题在于,他们必须比发布真实数据更快地发布MTBF。因此,他们需要通过某种推断来产生MTBF。有时这可能会消失。我所看到的最坏情况下降了三个数量级以上。
kasperd '16

0

我在公司支持网站上看到过MTBF的报道。与您的销售人员或SE交谈以获取信息。


0

我认为,MTBF数量已成为一种销售工具。现代硬件已达到MTBF编号基本上无用的状态。即使是最低端的低端供应商,其生产的硬件也比任何合理的升级周期都要长。您注意到,没有人报告MTBF编号。我相信这就是原因。


但是,某些服务器仍然比其他服务器更可靠。我们确实需要回答诸如“第二个电源值得吗?”之类的问题。为此,我们需要数据。理想情况下,那将是跨大量类似设备报告的真实故障统计信息。我们将MTBF用作该实际分布的弱代理。

很公平。在我的小世界中,冗余的想法是该过程的预期组成部分。再举一个例子,看看大多数大型托管服务提供商或谷歌。我仍然建议,鉴于Wintel服务器的商品状态,这是一个逐渐减弱的问题。如果您谈论的是z系列或类似产品,则方程式和期望值有很大不同。
pooter博士

0

不幸的是,MTBF在现代服务器中不是实用或可靠的度量。MTBF的全部概念是,如果许多人长时间使用特定的模型/配置,我们可能会知道其可靠性。

如今,我们大多数人高兴地以潜在的额外可靠性换取了已证明的额外性能和功效。例如,您是否会因为证明其可靠性而在18-24个月旧的硬件上构建新服务器?还是只使用具有更多内核,马力和能效的最后一代CPU?

而且,与老式电话系统不同,系统是完全定制的,并且当然严重依赖软件。BIOS版本x.xx或驱动程序版本y.yyy有多可靠?最新的OS / DB / app服务器修补程序是否增加了稳定性,或者它具有稳定性退化?实际上,世界上有多少台服务器使用的硬件/堆栈版本与您完全相同?

如果您需要高可用性,则无论如何都需要为系统添加冗余(双重功能,群集,热备用,DRP,您拥有的功能)。因此,每个硬件组件的相对可靠性通常都不是重要因素,因为您构建基础结构以承受单个组件故障。忍受不确定性(可靠性具有追溯力)并据此计划。


不断变化的配置是一个现实的问题。这使得很难在单个配置点上积累经验。但是,如果您打算进行HA配置,即使具有冗余配置,也必须对单个设备的可靠性有所了解。

看来IT不可能成为一门科学。我们继续进行假设,没有硬数据,并且浪费资源。这些天更像黑魔法了。工程似乎是一个遥远的目标。
Giovanni Tirloni 2013年

0

我同意其他大多数答案:MTBF编号对我没有用,我从不检查它们。

硬盘驱动器是一个例外,但是即使在那儿,我也只是以一种非常粗糙的方式看待MTBF,如果可以选择的话,请务必购买更可靠的“服务器级”驱动器。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.