平均故障时间（MTTF）：磁盘制造商发布此消息时，应如何解释其编号？

10

平均故障时间（MTTF）通常以小时为单位，通过进行一些计算，看来磁盘应该仅在经过很多年后才出现故障。

似乎磁盘需要维修的频率更高。有谁知道为什么会这样吗？

我认为此指标有些可疑。在这里解释错误吗？

— 凯特琳·麦克莫迪（Kaitlyn Mcmordie）
source

14

首先：

MTTF =平均故障
时间MTTR =平均维修时间
MTBF =平均故障间隔时间= MTTF + MTTR

由于维修可能需要一个小时，而MTTF可能需要数万小时，因此MTBF通常或多或少等于MTTF。但是MTBF通常也不适用，因为有缺陷的产品不会得到修理，而只能被替换，因为维修成本要比替换高。

MTTF计算是一种复杂的统计方法，涉及计算每个零件失效的几率。这并不是人们有时会假定的线性事物。如果您的MTTF为100万小时，这并不意味着在1000台设备中有1000个小时后将发生故障，或者在1个小时后将有1000 000台设备发生故障。
许多电子设备遵循“浴缸曲线”，

在此处输入图片说明

在早期有很多故障的地方，然后经过很长时间却几乎没有任何故障，并且在使用寿命快要结束时，故障的数量又增加了。在硬盘中，还有一些机械零件具有更线性的故障曲线。从第1天开始缓慢增加。

如果制造商说例如100万小时的MTTF（通常是POH或开机时间），则意味着驱动器平均应可持续使用100年以上。一些驱动器将使用更长的时间，而某些驱动器将更早地发生故障。因此，尽管有100万小时，但1000小时后仍然有可能发生故障。我曾经有一个星期内驱动器发生故障，然后您必须回想一下浴缸曲线。替换驱动器已经愉快地旋转了> 50k小时。

— 史蒂文夫
source

3

值得注意的是，早期故障通常称为老化。早期故障要低得多的制造商通常会在老化阶段运行设备。同时纯电子不表现出磨损周期，仅烧伤。

— Kortuk

1

请注意，在计算MTTF（或MTBF）时，通常只使用一个分布来对故障进行建模。因此，计算是基于“婴儿死亡率”，“正常寿命”或“寿命终止”分布。如果您将Weibull用作基本分布，则唯一可以区分这三种分布的就是Weibull shape参数。从“正常寿命”分布中得出故障的唯一情况是时间对故障率没有影响，因此该分布是指数的。

2

MTTF主要用于指示您应该从设备或小部件中获得什么样的寿命。由于明显的原因，它不能准确预测设备的故障日期。它仅是基于对可用数据进行统计分析得出的估计值，因此仅应如此考虑。对于预算（在这里我应该摊销或折旧成本应该花费多长时间）和计划（在必须获得下一个小部件之前，我们希望小部件能够执行多长时间）有用。

— music2myear11年

首先，什么是 “磁盘故障”？

— 凯特琳·麦克莫迪2011年

2

@Kaitlyn-我猜您指的是坏领域。我想说磁盘故障是指您无法再从驱动器中读取或写入驱动器。通常是机械错误，例如磁头碰撞。当您仍然有很多好的扇区时，通常会发生这种情况。

— stevenvh 2011年

4

如果一台设备的MTBF为1,000,000小时，则并不意味着任何设备都可以使用1,000,000小时。而是大致意味着，如果在其额定使用寿命内的1,000,000台设备每运转一小时，或在100,000件十小时（但仍在额定寿命内）运转，或60,000,000运转一分钟，依此类推。大约会有很多失败。请注意，额定使用寿命与MTBF完全正交。考虑以下两种类型的小部件：

每个小部件，无论年龄大小，每小时都有0.1％的失败机会。
在每十亿个小部件中，除一个以外的所有小部件都将精确地运行61分钟，然后消失。30分钟后将死亡；这些小部件的指定使用寿命为60分钟。

第一种类型的窗口小部件的平均寿命约为1,000小时，而MTBF约为1,000小时。第二秒的平均寿命为61分钟，但在其使用寿命内的MTBF为1,000,000,000小时。虽然说第二个设备的平均故障间隔时间是预期寿命的近十亿倍似乎有些奇怪，但平均故障间隔时间并不是一个毫无意义的数字。

假设有人要进行一项实验，要求1,000,000台设备在一个小时内都能正常工作，然后将它们全部报废。如果任何设备出现故障，整个实验将被破坏。这会更有用-设备平均可以使用1000小时，但平均无故障时间只有1,000小时，或者设备最多可以使用61分钟，但十亿分之一的失败机会达到那个标记？

— 超级猫
source

因此，最重要的是，我们不应该将10 ^ 6小时的MTBF视为任何特定磁盘的“平均寿命”，而是作为衡量多个磁盘寿命的度量标准？

— 凯特琳·麦克莫迪

@Kaitlyn Mcmordie：“终生”一词并不适用。死亡并不意味着失败，反之亦然。存储设备的制造商可以指定应遵循的程序以避免数据丢失；这样的过程可以包括将所有数据从任何向新设备发出“即将发生故障”指示的设备移动到新设备（在复制数据之后，旧设备将被视为“失效”）。如果此类事件没有造成数据丢失，那不是故障。但是，任何设备（即使看似健康的设备）发生的数据丢失都是故障。与一生无关。

— supercat

2

添加到stevenvh的答案中：知名的磁盘制造商都对新设备进行老化测试，电子元件制造商也是如此。在硬盘中，不仅有一个总体的MTBF和MTTF，而且还有磁盘块的个别故障统计信息。换句话说：旋转的某些部分，磁盘中的“拼版”可能会失败，而大多数仍然可以正常读取/写入。可以检测到所谓的“坏扇区”，然后通过驱动器内部的固件将其映射出来。

如今，所有驱动器都包含额外的备用扇区，这些扇区可以用来代替缺陷扇区。这只是制造商的预防措施：如果他们不这样做，就无法以宣称的容量出售磁盘。如果他们将额外的x％的隐藏扇区作为储备建立，则会使成本增加<x％，但总体生产良率却要高得多。

今天的磁盘上存有一些坏扇区，也可以用适当的软件读出。此和其他磁盘运行状况参数（例如温度）称为SMART值。

现在，一旦制造商完成了驱动器的老化测试，并且某些扇区几乎已发生故障，并且已被驱动器的内部固件重新映射，则“ Bad Sector Count” SMART参数将设置为0。驱动器交付给客户。

通常，在老化过程之后，客户不再看到已经提到的浴缸曲线的起点。我们很幸运，并且随着时间的推移，失败的可能性只会增加。

因此，如果您查看制造商提供的MTTF，则可能需要进行任何故障建模，而无需考虑浴盆曲线的起点。

— cfi
source

谢谢。顺便说一句，您是否知道“服务器故障”一词的含义？

— 2011年

明显的含义是向他人提供服务的计算机遇到的错误。我认为那是您该在serverfault.com上提问的时候了；-) 在FAQ中

— cfi

-2

您应该将其解释为市场营销。他们实际上不知道确切的MTBF（两次故障之间的平均时间），因此他们使用各种技巧对其进行估算，并且他们针对“企业”驱动器显示出更高的数字以证明其成本合理。

实际上，对于硬盘制造商来说，在保修期结束后立即使硬盘故障是有利可图的。

作为一个阴谋论，我相信Seagate 7200.11的大量失败是实施“程序性死亡”的错误，导致磁盘在保修期结束之前发生了故障，因此他们必须通过固件更新来“修复”该错误。

— 酒吧怪兽
source

我不赞成这种阴谋论。

1

@Federico Russo：为什么？您认为这只是开发人员的常见错误，导致HDD在一定小时后锁定为不可恢复状态吗？

— BarsMonster 2011年

2

-1：使用统计分析来确定MTBF数量，并且某些统计信息是已知的-它们不仅仅是使用“各种技巧”。您将需要一些重要的资料来支持以下说法：企业驱动器数量更多，硬盘制造商在保修期结束后驱动器出现故障，以及希捷在其驱动器中实施了任何类型的“程序性死亡”。

— 凯文·维米尔

1

驱动器制造商的最高利益是显示出比竞争对手更高的MTTF。+1

— tyblu 2011年

磁盘故障到底是什么？什么算一个？

— 凯特琳·麦克莫迪2011年