我是否应该“运行”新的RAID 1对中的一个磁盘以减少发生类似故障时间的机会?


19

我正在设置一个由两个新的4TB硬盘驱动器组成的RAID1阵列。

我之前在某处听说过,同时购买RAID1阵列的新的相同硬盘会增加它们在相似的时间点发生故障的机会。

因此,我正在考虑单独使用其中一个硬盘驱动器一段时间(也许几个星期),以尝试减少两个硬盘驱动器在短时间内出现故障的可能性。(未使用的驱动器将在抽屉中保持断开状态)

这似乎是一种合理的方法,还是我很可能只是在浪费时间?


2
这是一个经常听到的说法,但是我还没有看到任何支持它的文档。更实际的风险是,其中一个磁盘可能会出现一些坏扇区,这些坏扇区会在一段时间内被忽略。但是,一旦另一个磁盘发生故障,您将在重建过程中注意到那些坏扇区。
kasperd 2015年

8
如果您正在使用数十个驱动器,则可能值得考虑从几批中进行采购。对于两个驱动器集,这样做是不值得的麻烦。故障率不是相似或可预测的……一个可能持续3个月,另一个可能持续5年。
jlehtinen 2015年

我个人不会只用两个驱动器进行突袭。使用更多驱动器可提供更好的容量。例如,3个驱动器将产生8 TB的总存储量,而2个驱动器仅产生4 TB的存储量。任何一个驱动器都可能出现三个故障,并且如果它们来自三个来源,则同时发生故障的几率很低。
phyrfox

3
@phyrfox-RAID-5(和-6)与RAID-1具有不同的性能特征,可能与他的应用程序不兼容。对于大型驱动器(尤其是消费者品质的驱动器),如果我要使用更高的RAID级别,那么我肯定会使用RAID-6来防止第二次磁盘故障,同时在单个磁盘故障后重建阵列时也可以。我使用一组同时购买的驱动器运行5磁盘RAID-6阵列已有2年了-一个磁盘每月出现故障,其余所有磁盘均未显示任何问题。
约翰尼

1
@phyrfox RAID5将降低每兆字节的成本,但实际上会增加出现故障的机会,因为有更多的驱动器发生故障。
卡托

Answers:


16

浪费时间。

您将无法以有意义的方式引发故障或给驱动器施加压力。您拥有RAID,这是一个好的开始。只需确保您有适当的监控以实际检测故障的发生,并进行备份以防止灾难。


2
同意传统的HDS,但对于ssds则完全不同。以为4tb ssd变得便宜和可用之前,现在值得一提,读者没有意识到我们在这里谈论旋转锈蚀,但是也许那时他们会处理更多的写入操作。
symcbean 2015年

3
是的-肯定会对所有“企业”驱动器进行浸泡测试,以使其克服浴缸曲线的早期寿命故障。尽管我确实知道您是否购买了一对发电机,但建议还是将66%更改为33%,因为这样一来,它们就不会同时磨损。对于驱动器,MTBF的标准偏差很大,因此不必担心。
Sobrique

5

如果您对此担心,最好一起使用不同品牌或系列的磁盘。

已经看到类似类型和使用年限的磁盘在群集中出现故障,因此恕我直言,这不是市区的避难所。


1
我也有,但是这取决于固件,而不是任何与MTBF相关的东西。
Sobrique

2

好问题-但是,与汽车大灯不同,这是浪费时间。4 GB驱动器[在此示例中为WD红色]的MTBF [平均无故障时间]为1,000,000小时。两个驱动器同时在镜中损坏的几率极小。当我看到这种情况时,是因为第一个驱动器发生故障而没有任何人注意。通过备份进行保护比先麻烦刻录一个驱动器更有用。如果混合使用驱动器类型,请确保驱动器的速度相同。如果您偏执狂,那么RAID 10适合您。


MTBF假定磁盘是独立的,它们不在同一RAID集中。还有其他原因,这会浪费时间,但是制造商发布的与现实的相关性较弱的荒谬数字并不是其中之一。
HopelessN00b 2015年

5
如果HDD确实确实具有规定的平均故障间隔时间,那为什么保修期这么短?1M小时是114年,付出或付出。WD Red Pro(因为我从其中选了一个)看起来具有五年保修。即使您花费平均故障时间的一半,Western Digital仍然不认为它在规定的MTBF期间的十分之一以上会可靠。现在,您将更倾向于相信哪一个;一些没有义务的随机统计,或者这笔钱实际在哪里?(保修退货,退款,翻新和更换需要真实的钱。)
CVn

1
@MichaelKjörling:如果他们对MTBF进行了保修,那么他们将更换保修期内的硬盘的50%以上(是的,超过了发行版的长尾巴)。当然,您应该看看钱在哪里,但是我看不出有理由相信MTBF不会比保修期长一个数量级,还有一些人相信它是。
Ben Voigt

@MichaelKjörling我见过公开发布的MTBF为100k小时的硬件,该硬件在运行1000 k小时后会持续磨损。下一代硬件的平均MTBF为20万小时。当第一批新硬件投入运行48小时后,其中超过50%发生了故障。
卡巴斯德(Kasperd),2015年

1

虽然从理论上讲是合理的,但数据并不支持对work in驱动器的需求。
仅查看两个驱动器,不仅几个星期不会真正产生影响,而且故障百分比也不起作用。

尽管有迹象表明,相同型号的驱动器的故障率更加标准化

大部分与年龄相关的结果都受到驱动年份的影响。有趣的是,这不会改变我们的结论。与年龄相关的结果相反,我们注意到本文其余部分显示的所有结果均不受人口混合的显着影响。(强调我的)

这样,与年龄相关的故障(仅是故障的一小部分)可以在某种程度上与酿酒年份相关。但是大多数失败都不能。
如果再加上总体故障百分比(在给定的一年内可以达到8%的峰值),则这两个驱动器在同一年发生故障的几率很小,而在同一周发生故障的几率可以忽略不计。
这就是如果您要查看所有可能的故障原因,而不仅仅是与年龄相关的故障。

如果要最大程度地降低风险,可以使用两个不同年份的驱动器。
如果您需要担保,请购买保险。
正如ewwhite的回答已经指出的那样,必须进行备份和监视。


0

根据我的经验,这通常是SSD而不是HDD的论点。SSD的写周期有限,因此,如果您将RAID1与两个相同型号的SSD一起使用,则两者应几乎同时用完写周期。

对于一般性故障,除非遇到诸如质量振动,静电或高温的严重问题,否则,我不怀疑您会同时发现2个驱动器中有2个发生故障。

具有更大驱动器(例如4TB)的RAID1(和RAID10)的主要问题是重建。使用2个驱动器镜像时,当一个驱动器发生故障时,另一驱动器将承担两倍的工作负载。然后,当您进行重建时,该驱动器将承受更大的负载。如果该驱动器有任何问题,在这种情况下很可能会失败,尤其是考虑到在负载下重建4TB镜像可能会花费很长时间。


0

您可以做到,但不会有太大帮助。

例如,如果输入电源中有一根针,则同一根针会杀死两个磁盘。

重要的是:您需要有一个良好的备份。突袭并不能弥补良好的备份。实际上,如果您拥有良好的备份,则也许不一定需要进行镜像突击检查(如果您可以在2-3年内容忍一次系统崩溃)。


3
RAID与可用性有关,与备份数据无关。关键是在驱动器发生故障时保持系统可用,而不是保护驱动器上的数据。
HopelessN00b 2015年

@ HopelessN00b这正是我试图在答案中解释的内容,也许我还不够清楚?
彼得说恢复莫妮卡

您的句子结尾处使您感到困惑。
HopelessN00b 2015年

@ HopelessN00b Raid还可以防止磁盘故障引起的数据丢失。这通常会导致错误的结论,那就是它可以用作备份。但是,使用RAID和备份是与情况有关的事情。在某些情况下,即使是专业的sysadm环境也不需要两者。在我看来,目标不是要同时使用经验丰富的sysadm,而是要使他清楚,镜像磁盘和备份其数据是针对不同问题的不同解决方案。
彼得说恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.