RAID-6:最好同时更换两个失效的驱动器,还是一次更换一个?


21

我们有一个16驱动器RAID-6,其中有三个问题驱动器。两个已经死亡,第三个正在发出SMART警告。(不要介意它如何处于如此糟糕的状态。)

显然,我们希望在仍然工作的硬盘驱动器之前进行更换,但是最好这样做:

  1. 更换一个闲置驱动器,让RAID重建,然后更换另一个,然后再次重建;要么

  2. 一次更换两个驱动器,并使其并行重建?

换句话说,通过重新引入一两个驱动器,我们是否可以更快地回到冗余状态?并行重建两个驱动器是否会减慢重建过程?

万一有问题,控制器是3ware 9650SE-16ML。


10
交叉所有您可以交叉的东西,并向您最喜欢的$ deity发送大笔捐款!
user9517支持GoFundMonica

1
我可以问一个问题吗?您能否让我们知道该阵列中磁盘的确切制造商和型号-如果我的怀疑是正确的,您可能会很好地看到这个问题成为将来的用户提出某些问题的有用参考点。谢谢。
斩波器

8
@Warren-AIEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE!他们关掉了吗?Bad JuJu我的朋友!这次为时已晚,但是通常来说,关闭驱动器(特别是如果它们是已启动并运行很长时间的较旧的驱动器)可以使它们有机会在启动时抛出错误(并使控制器说“是的,该驱动器现在也炸了”)
voretaq7 2011年

2
@ voretaq7:我曾经将所有磁盘从MSA-20盒发送到地狱,方法是经过大约3年的正常运行时间和连续使用后将其关闭。永远不会再这样做了:-)
karatedog

1
阵列现在已经建立并正在重建,因此我可以为关心的任何人获得精确的模型。最初的硬盘驱动器是ST31000340NS,这意味着它们是Chopper3要求的服务器级别版本。那么这些以失败而臭名昭著吗?(新的是ST31000524NS。)
沃伦·杨

Answers:


27

!!!!! 一个!!!!!

一次认真地做一次,老兄,别以其他方式考虑这样做。

其他所有内容都将测试您的完整系统还原技能。


3
我要添加到此答案中的两个项目是(1)祈祷随心所欲)和(2)一旦一切恢复到安全状态,就进行监视(这样您就可以知道将来驱动器何时出现故障并可以解决)在出现两个半故障之前就解决了这个问题,也可以选择在阵列中为将来配置热备用
voretaq7 2011年

3
或使用RAID 10 </ stockanswer>
Chopper3 2011年

1
回复:祈祷,无可奉告。:)关于 :监视,我已经提倡多年了;也许这会点燃某人的火。回复:RAID-10,投标市场中的数据过多;当3 TB磁盘问世时,我们没有将冗余度提高三倍,而是将磁盘数减少了1/3。叹。回复:热备用,现在我们已经做到了,因为驱动器足够大,可以容纳它,但是这个特定的服务器是16个驱动器机箱中的16个驱动器,当时1 TB驱动器是您可以获得的最大容量,我们确实需要全部14可用TB 。使用24驱动器系统是行不通的。见前面。:)
沃伦·杨

2
如果驱动器已经发生故障,则没有理由保留它们-相反,我希望两次连续的重建对其他驱动器的压力要大于单个驱动器。
西蒙·里希特

1
+1,这个。虽然两次连续的重建会增加压力,并且更有可能导致第三个驱动器在完成这两个驱动器之前都发生故障,但是这也是一个更快的重建,并且如果边际驱动器在重建第二个磁盘时发生故障,则您仍保持在线状态。因此,最快,最安全的方式进入容错状态是一次。
乔尔·科尔

14

您最近备份良好吗?如果不是,您认为可以在合理的时间内得到它们吗?

老实说,我比其他任何时候都更关心使坏驱动器脱机-如果您已经抛出了SMART错误,那么您就已经半途而废了。

我的建议是确认备份,然后一次重建一个驱动器,以尝试恢复到一种状态,在此状态下,您可以替换抛出SMART错误的驱动器(首先是死驱动器,最后是软错误)。

如果没有备份,那将是胡扯:备份可能会创建足够的软错误,以将边缘驱动器标记为故障,也可能尝试进行重建。


2
此阵列上的大多数或全部数据都是一种缓存,以避免需要通过慢速链接反复提取TB的数据。此缓存数据全部可替换,方法是数月(一次)再次下载或将其运送到可以从另一个阵列复制的站点。因此,备份不是问题。我们要通过保存阵列来防止的事情是停机期间将服务器运送到服务仓库,重新填充阵列并将其运送回系统。
沃伦·杨

在这种情况下,@ chopper3所说的几乎是《土地法则》:一次重建一个驱动器,然后祈祷一下真的很困难,因为您不会因为额外的读取负载而使边缘驱动器脱机。
voretaq7 2011年

ew-很高兴听到它。
斩波器

0

我认为将其更改为“一次一个磁盘”毫无意义。

显然,如果RAID能够同时“重新同步”两个磁盘(无论如何都失败了),您只会获胜,这将使整个RAID恢复更快地支持最多2个故障的能力。


-1

我的0.02。$

由于服务器已经脱机,请在将要发生故障的驱动器上运行ddrescue,以将其克隆到另一个正常的驱动器中。

然后将新的健全的驱动器放到阵列中。如果克隆成功,您将避免在两次重建期间看到驱动器发生故障的风险。


这是一个硬件RAID控制器,单个磁盘不可寻址。
斩波器
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.