平均无故障时间-SSD


32

SSD 的平均故障间隔时间( MTBF )列为小时。1,500,000

那是很多小时。1,500,000小时大约是170几年。由于这种特殊SSD的发明是内战之后的,他们如何知道MTBF是什么?

一些对我有意义的选择:

  • Newegg只是有错字
  • 我认为不是两次故障之间的平均时间的定义
  • 他们正在使用某种类型的统计推断来估算平均故障间隔时间

题:

如何获得SSD / HDD的平均故障间隔时间(MTFB)?


Answers:


34

驱动器制造商通过两个相关指标来指定其产品的可靠性:年度故障率(AFR),即在测试中失败的磁盘驱动器在总体中所占的百分比,按比例扩展到每年的估计值;以及平均故障时间(MTTF)。

通常根据加速寿命和压力测试或基于早期产品的现场数据估算新产品的AFR。MTTF估计为每年的开机小时数除以AFR。服务器中驱动器的一个常见假设是它们在100%的时间内都已通电。

http://www.cs.cmu.edu/~bianca/fast/

150万小时的MTTF听起来有些合理。

这将是一个测试,其中1000个驱动器运行6个月,而3个驱动器出现故障。
AFR为每年(2 * 6个月* 3)/(1000个驱动器)= 0.6%,MTTF = 1yr / 0.6%= 1,460,967小时或167年。

查看该数字的另一种方法是,当您拥有167个驱动器并使它们运行一年时,制造商声称平均而言,您会看到一个驱动器发生故障。

但是我希望这仅仅是恒定的“随机”机械/电子故障率。

如评论中所述,假设故障率遵循浴盆曲线,则制造商的营销团队可以稍微提高一下可靠性指标,例如,不包括DOA's(到达时出现死角,通过质量控制但在最终用户使用时出现故障的单元)安装它们)并扩展DOA定义,以也排除早期故障高峰中的那些。而且由于测试时间不够长,您也不会看到年龄效应。

我认为保修期可以更好地表明制造商真正期望SSD可以使用多长时间!
那绝对不会在几十年或几个世纪后被测量出来的。


与MTBF相关的是与NAND单元可以支持的有限数量的写周期相关的可靠性。通用指标是总写入容量,通常以TB为单位。除其他性能要求外,这是一个很大的限制因素。

为了在不同品牌和大小不同的驱动器之间进行更方便的比较,写入耐久性通常会转换为每日写入容量,是磁盘容量的一部分。

假设驱动器的额定使用寿命是在保修期内:
100 GB SSD可能具有3年保修,写入容量为50 TB:

        50 TB
---------------------  = 0.46 drive per day write capacity.
3 * 365 days * 100 GB

该数字越高,磁盘越适合写密集型IO。
目前(2014年底),价值服务器产品线SSD的价值为每天0.3-0.8驱动器,中端产品从1-5稳定增长,高端产品的写入耐力水平高达25,似乎飞速增长* 3-5年每天的驱动器容量。

一些现实世界的测试 表明,有时可能会大大超出供应商的要求,但是将设备驱动到超出供应商限制的位置并不总是企业考虑的问题……而是为您的目的正确购买规格的驱动器


1
请注意,从AFR到MTTF的转换假定AFR恒定。尤其对于具有活动部件的事物(例如硬盘驱动器)而言,这是不正确的,对于SSD,可能并非如此。
2014年

绝对真实。IIRC有一个早期的故障高峰,然后是一个低故障时期,然后随着年龄的增长,AFR稳定增加。加上不断变化的环境因素,现实世界的数量就会大大增加。正如@Chris S所提到的,保修期可能是一个更好的指标,可以对现实世界产生影响。
HBruijn 2014年

良好的发人深省的观点是,1,500,000小时的MTBF实际上意味着“如果我有1000 ssd,那么3可能会在6个月内失败(甚至更早)……”。+1(并且由于测试是在短期内进行的,因此预期使用寿命不会超过保修范围...当您的硬盘达到N岁时,“ MTBF”可能会下降很多)
Olivier Dulac

1
@HBruijn感谢您的翔实回答。您所指的现象(早期故障尖峰,一段时间内的低故障,然后故障持续增加)由浴盆曲线描述。
OSE 2014年

19

不幸的是,MTBF不是大多数人所想的...

  • 不是一个单独的驱动器会持续多久。

    制造商期望其驱动器的使用寿命与保修期一样长,在此之后,这并不是他们的问题。大约10年后,较旧的电磁磁盘硬盘驱动器将被占用。集成电路的使用时间非常长,但是其他组件(尤其是电容器)在经过一定程度的可预测的循环次数后就会磨损。

  • 你需要多少,这些驱动器的期望1个驱动器出现故障每隔一小时。

    正如其他人指出的那样,制造商会在合理的时间内进行各种测试并确定故障率。这些测试之间存在相当大的差异,营销部门通常会对最终数字应该有什么“投入”。无论如何,他们都会尽最大努力猜测平均每小时需要1个故障需要多少个驱动器。

    对于驱动器较少的情况,您可以根据MTBF推断出统计上的故障概率,但是请记住,设计良好的产品中的故障应遵循“浴盆”曲线 -即在设备首次投入使用后以及之后的故障率更高他们的保修期已过,并且两者之间的故障率更低。


2

它们来自基于较小样本量和较短时间的统计评估。确实没有普遍同意的方法或过程,因此实际上只是愚蠢的“营销”。

文章可以解释多一点。和维基百科有一些公式,这可能是你在找什么?

本质上,几乎所有产品(包括诸如洗碗机之类的一般家用机器)的多种产品都需要运行X倍的时间。在此期间发生了多少次故障用于计算MTFB。

当然,要在整个生命周期中运行产品(例如SSD),这将是很长时间的,这是不可行的。它们主要受写入量的限制,而不是受机械故障的限制(这是MTFB的目的)


2

关于MTBF的一个坏消息是,通用评估方法假设所有NAND单元之间的写负载均匀分布。但是,将单元分组到群集中,并且当一个单元失效时-整个群集被标记为已失效,并被备用中的新群集替换。通常,预留空间约为SSD容量的20%。当储备用完时,整个SSD将被标记为已用完。

IRL SSD包含持久性数据和易失性数据。想象一下,您有90%的SSD填充了静态数据,而其余的10%处于沉重的写负载之下。SSD控制器将负载分散到可用的可用群集中。10%的用户耗尽其寿命比您估计的快10倍。它们将一次又一次地从储备中更换,直到最后。

例如,在永久/不稳定数据量为30:1或更大的非常糟糕的情况下-一堆照片和相对较小的流行网站数据库,您的SSD将在一年后死亡。

我的一位客户对SSD的特性印象深刻,并坚持为他的DBMS服务器配备一对。在接下来的12个月中,我们两次更换了它们。

但是据此,SSD的营销材料寿命为170年。当然。


1

MTBF与测量SSD驱动器的耐久性无关,因为SSD对时间本身不像普通的旋转HDD驱动器那样敏感,但对SSD单元的重写次数并不敏感。对于SSD而言,相关的度量是每天的驱动器写入量(DWPD)。例如,某些企业级SSD磁盘3.2TB的使用寿命为5年3 DWPD。

有时,SSD供应商会提供(总)兆字节(TBW)或“写入周期”方面的耐久性,可以很容易地转换为DWPD,反之亦然,因为知道给定SSD驱动器的时间和最大吞吐量。

对于具有3.2Tb SSD驱动器的给定示例:
TBW = DriveSize * Years * DWPD;
TBW = 3.2TB * 5 * 365 * 3d = 17520 TB,为期5年

如果驱动器提供每秒80 MB的可持续写入吞吐量,则
WriteCycles = DWPD * Years;
给定磁盘的WriteCycles = 3 * 365 * 5 = 5475总写周期

需要注意的重要一点是,如果您要为驱动器提供100%的利用率,则我们正在计算最坏的情况(这很可能是不可能的)。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.