寻找RAID 5 2驱动器故障的实际经验吗?[关闭]


15

我想知道是否有人对大型驱动器有RAID 5 2驱动器故障的个人经历?

据我了解,从理论上讲,对于大型1-2TB驱动器,如果一个驱动器在RAID组中发生故障,则它需要重建所有内容,因此会非常严重地撞击其他所有驱动器,而导致另一个故障的机会增加,特别是如果驱动器来自同一制造批次。而且,如果您丢失了另一个驱动器,则会丢失所有数据。

我通常会在声明“ RAID不是备份”之后对此进行解释。

从理论上讲,我理解,但是真的会发生吗?


遗憾的是,我们刚刚获得了有关此方面的实时经验的新问题。:( superuser.com/questions/516844/...
亨尼斯

Answers:


15

是的,我发生过这种事。一组4个(消费级)WD 500驱动器在大约一周的时间内变质了。我更换第一个阵列很慢,并且没有使阵列脱机,并且第二个阵列失败时丢失了所有数据。我重用了剩下的两个好东西,其中一个在下个月内失败了。他们都经过适当的冷却和保养。我只能说我现在相信“坏批次”的言论。

在另一起事件中,我有3个不同品牌和型号的驱动器在一个月内彼此失效,尽管我可以肯定它们失败的原因是由于通风不良。不要做你的驱动器!


3
作为必然的结果,当驱动器确实出现故障时,请多留些备用。另外,提防静默破坏...很容易丢失仅假装工作的驱动器上的数据。
Paul McMillan,2009年

这是另一个原因,您不应该在RAID阵列中安装全部来自同一批次的驱动器-它们具有相关的故障时间(您知道,例如次级抵押抵押证券的默认违约率)。
安德鲁·毛

4

不过,这实际上发生在我身上,这并不是驱动器发生故障的最常见方式。我在RAID 5中有4个500GB的外部sata驱动器,它们连接到一台便宜的旧IBM机架式服务器上。整个装置被藏在楼梯下,有一天,是一只老鼠还是一只兔子,但是通过一些电源线咬了一些东西,短路了两个驱动器。所有的驱动器都放在便宜的外部机箱中,所以我想我应该不会感到惊讶。


3

您是在问是否会丢失2个驱动器?当然,任何事情都会发生。突袭5可以极大地提高可用性,并提高数据访问的性能,但突袭5不会备份任何内容。它只是帮助防止由于单个驱动器硬件丢失而导致的数据使用。它不是您的数据的副本。您无法恢复旧副本,旧修订版或仅恢复当前工作的副本。同样,不能防止数据损坏。除了简单地丢失驱动器之外,还有更多可能出错的事情。病毒可能会破坏您的所有数据,妹妹喜欢看着台式机上的垃圾桶里满满的东西,因为她向其中扔文件,愚蠢的朋友在您的计算机上放了苏打水,等等。

另外,请记住,您可能会丢失硬盘RAID控制器。而且,您不能只将数组移动到另一个随机控制器。通常,您必须使用完全相同的一个,但仍然可能出问题。一些RAID控制器将信息存储在板上,而其他RAID控制器则将配置信息发送到连接的阵列。当这种情况出现时,这是一场赌博。

SF也有同样的问题:https : //serverfault.com/questions/2888/why-is-raid-not-a-backup

需要更多原因吗?

编辑:您的想法是正确的,任何人都可能发生。我个人并没有看到多个驱动器发生故障,但是我看到一些驱动器真的死在一起。他们都不在那个重建的窗口中,但这在技术上是一个风险。但是,如果有事情发生,您有备份吗?哈哈。有些人有时会在这方面学习困难的方法。团队副本6的双重奇偶校验可将其提升到新的水平,并且最多可以丢失2个驱动器。使用任何RAID设置,故障的可能性都随阵列的大小(驱动器数量)和复杂性而增加。更多的驱动器=更多的故障点


抱歉,我了解所有这些,只是问是否有人发生过这种情况以及情况如何?
布赖恩

3

没错,在RAID-5情况下,如果丢失了一个磁盘然后进行重建,则系统必须成功读取RAID集中所有尚在运行的驱动器的每个扇区。NetApp声称,在某些情况下(它们最多可以对28种类型的驱动器进行RAID组设置),发生第二次故障的几率可能高达十分之一。因此,他们会执行“双重奇偶校验”,我认为它与RAID-6有关。

显然,您在RAID集中拥有的驱动器越多,驱动器越大,则遇到问题的可能性就越大。对于较小的RAID集(3-5个磁盘),使用RAID-5的可能性可能没有太大变化。

但是我总是尽可能地在NetApps上执行Raid-DP。


+1我从未想过“必须成功读取所有幸存驱动器的每个扇区”的事实。
AaronLS

2

没有亲身经历,但是我已经听过那些发生在他们身上的人们的尖叫。任何存储系统(无论是单个驱动器,USB密钥,磁带,庞大的RAID安装还是Amazon S3)最终都会以您最不方便的方式发生故障。重建RAID 5集时发生的第二次故障只是发生这种情况的方式之一。

顺便说一句,几天前,OpenSolaris集成了对三奇偶校验RAID的支持-因此至少有一家供应商认为,在奇偶校验RAID重建期间允许两个额外的故障值得进行工程上的努力。


1

实际上确实确实发生了。这就是NetApp存储解决方案采用RAID 6的原因。以防万一您在重建过程中丢失了第二个驱动器。

您可以使用以下页面链接文本上列出的标准公式来计算发生故障的可能性: 当您扩展到越来越多的数据驱动器时,发生这种故障的可能性就会上升。如果您有足够的磁盘,则在使用具有大量数据卷的RAID 5时,可以将此编号推入担心区域。

我可以从您的亲身经历告诉您,您肯定会在同一关键时间内在同一阵列中发生两次驱动器故障。突袭6使我不必从备份中还原。

希望这可以帮助


1

这是一个场景:RAID5阵列上的驱动器发生故障,但是您的备用磁盘已经被闲置,或者最终获得了新硬盘的命令。您(或某个远程的奴才)手头有新鲜的驱动器来替换有故障的驱动器。由于标签不良,疲倦或仅仅是愚蠢,会弹出剩余的好驱动器之一,而不是出现故障的驱动器……这是您的第二次失败。


1

我在数据恢复业务中已经见过好几次了。是的,它们经常同时发生故障,但是我认为这与构建它们的时间无关,因为我也看到过这种情况会在驱动器不匹配的情况下发生。通常,这种类型的故障会在雷暴,电源浪涌或电源中断后不久发生。

通常,电涌会损坏驱动器或RAID控制器,并在几天之内开始出现故障。实际上,我现在正在恢复具有两个驱动器的阵列,该阵列在断电后同时发生故障。(现在看起来毫无希望)

一个小提示:电涌保护器并不能真正保护您的设备。始终将raid 5连接到良好的UPS。当阵列位于UPS上时,我从未见过这种情况。


1

意外地从单一奇偶校验集中拉出第二个良好的驱动器不应破坏具有良好RAID实现的阵列。我知道ZFS RAID-Z只会冻结阵列上的任何I / O,直到您再次对其进行联机。


0

另一种情况:远程小兵被命令从磁带机中取出备份磁带。她走到机架上,没有将磁带从磁带机中拉出……而是同时从驱动器托架中取出了两(两个)HDD,瞧:2个驱动器故障。

您认为这牵强吗?好吧,我现在正在做一个客户,现在正在研究服务器的重建。

很好,她没有刻录磁带驱动器中或其他磁带上的磁带;-)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.