平均故障时间(MTTF)通常以小时为单位,通过进行一些计算,看来磁盘应该仅在经过很多年后才出现故障。
似乎磁盘需要维修的频率更高。有谁知道为什么会这样吗?
我认为此指标有些可疑。在这里解释错误吗?
平均故障时间(MTTF)通常以小时为单位,通过进行一些计算,看来磁盘应该仅在经过很多年后才出现故障。
似乎磁盘需要维修的频率更高。有谁知道为什么会这样吗?
我认为此指标有些可疑。在这里解释错误吗?
Answers:
首先:
MTTF =平均故障
时间MTTR =平均维修时间
MTBF =平均故障间隔时间= MTTF + MTTR
由于维修可能需要一个小时,而MTTF可能需要数万小时,因此MTBF通常或多或少等于MTTF。但是MTBF通常也不适用,因为有缺陷的产品不会得到修理,而只能被替换,因为维修成本要比替换高。
MTTF计算是一种复杂的统计方法,涉及计算每个零件失效的几率。这并不是人们有时会假定的线性事物。如果您的MTTF为100万小时,这并不意味着在1000台设备中有1000个小时后将发生故障,或者在1个小时后将有1000 000台设备发生故障。
许多电子设备遵循“浴缸曲线”,
在早期有很多故障的地方,然后经过很长时间却几乎没有任何故障,并且在使用寿命快要结束时,故障的数量又增加了。在硬盘中,还有一些机械零件具有更线性的故障曲线。从第1天开始缓慢增加。
如果制造商说例如100万小时的MTTF(通常是POH或开机时间),则意味着驱动器平均应可持续使用100年以上。一些驱动器将使用更长的时间,而某些驱动器将更早地发生故障。因此,尽管有100万小时,但1000小时后仍然有可能发生故障。我曾经有一个星期内驱动器发生故障,然后您必须回想一下浴缸曲线。替换驱动器已经愉快地旋转了> 50k小时。
如果一台设备的MTBF为1,000,000小时,则并不意味着任何设备都可以使用1,000,000小时。而是大致意味着,如果在其额定使用寿命内的1,000,000台设备每运转一小时,或在100,000件十小时(但仍在额定寿命内)运转,或60,000,000运转一分钟,依此类推。大约会有很多失败。请注意,额定使用寿命与MTBF完全正交。考虑以下两种类型的小部件:
第一种类型的窗口小部件的平均寿命约为1,000小时,而MTBF约为1,000小时。第二秒的平均寿命为61分钟,但在其使用寿命内的MTBF为1,000,000,000小时。虽然说第二个设备的平均故障间隔时间是预期寿命的近十亿倍似乎有些奇怪,但平均故障间隔时间并不是一个毫无意义的数字。
假设有人要进行一项实验,要求1,000,000台设备在一个小时内都能正常工作,然后将它们全部报废。如果任何设备出现故障,整个实验将被破坏。这会更有用-设备平均可以使用1000小时,但平均无故障时间只有1,000小时,或者设备最多可以使用61分钟,但十亿分之一的失败机会达到那个标记?
添加到stevenvh的答案中:知名的磁盘制造商都对新设备进行老化测试,电子元件制造商也是如此。在硬盘中,不仅有一个总体的MTBF和MTTF,而且还有磁盘块的个别故障统计信息。换句话说:旋转的某些部分,磁盘中的“拼版”可能会失败,而大多数仍然可以正常读取/写入。可以检测到所谓的“坏扇区”,然后通过驱动器内部的固件将其映射出来。
如今,所有驱动器都包含额外的备用扇区,这些扇区可以用来代替缺陷扇区。这只是制造商的预防措施:如果他们不这样做,就无法以宣称的容量出售磁盘。如果他们将额外的x%的隐藏扇区作为储备建立,则会使成本增加<x%,但总体生产良率却要高得多。
今天的磁盘上存有一些坏扇区,也可以用适当的软件读出。此和其他磁盘运行状况参数(例如温度)称为SMART值。
现在,一旦制造商完成了驱动器的老化测试,并且某些扇区几乎已发生故障,并且已被驱动器的内部固件重新映射,则“ Bad Sector Count” SMART参数将设置为0。驱动器交付给客户。
通常,在老化过程之后,客户不再看到已经提到的浴缸曲线的起点。我们很幸运,并且随着时间的推移,失败的可能性只会增加。
因此,如果您查看制造商提供的MTTF,则可能需要进行任何故障建模,而无需考虑浴盆曲线的起点。
您应该将其解释为市场营销。他们实际上不知道确切的MTBF(两次故障之间的平均时间),因此他们使用各种技巧对其进行估算,并且他们针对“企业”驱动器显示出更高的数字以证明其成本合理。
实际上,对于硬盘制造商来说,在保修期结束后立即使硬盘故障是有利可图的。
作为一个阴谋论,我相信Seagate 7200.11的大量失败是实施“程序性死亡”的错误,导致磁盘在保修期结束之前发生了故障,因此他们必须通过固件更新来“修复”该错误。