SMART错误的杀伤力是什么?


0

我们在RAID 5中有一个40 TB的存储服务器,有12个2 TB驱动器。一个驱动器充当热备份,并且使用硬件RAID控制器进行管理。

出于某些原因,三个驱动器显然同时失败了。一个似乎完全失败,而两个显示SMART错误。hotspare似乎没有被转换为数组的一部分,但我不确定这是否会自动发生。

问题是,是否可以重新启动这两个驱动器,重建阵列,然后在这些驱动器最终失败之前保存这些数据?我对SMART错误的了解是,它不是彻头彻尾的失败,而只是预测的失败。

显然这些驱动器很快就需要更换,但是它们是完全破坏还是可以保存?

Answers:


0

应尽快更换一个完全失败的驱动器,并且阵列可以自行重建。根据这项研究,驱动器应该比没有显示SMART故障的SMART故障更容易失败:https//static.googleusercontent.com/media/research.google.com/en//archive/disk_failures.pdf。它们也应该被替换,并且再也不用于重要的用例。

假设您使用相同的硬盘驱动器,则值得获得多个备件,数量取决于您期望存储设备保持服务的时间长度。

在我看来,对于大于1 TB的驱动器阵列,RAID5不是一个好选择。RAID5需要很长时间才能重建,重建时性能会很慢。当阵列中有多个(12)磁盘时,RAID5也不是很有用,因为它只能防止一个故障。第二次失败破坏了整个阵列。

对于未来的构建,我建议使用RAID10,它将提供更一致的快速性能,同时提供更好的容错能力。


是的,谢谢你的观点。通常情况下,我不是那个设置它的人,只是尝试修复它的人!我在上面的评论中提到,该阵列似乎没有重建,可能是因为它现在被列为我们的Dell PERC控制器上的外部阵列。当我们尝试导入时,我们不能,因为阵列中仍然存在故障(SMART驱动器)驱动器。有什么想强迫它重建?
泰勒F

遗憾的是,我没有使用过Dell PERC控制器。戴尔支持对您来说可能是更好的资源,如果您可以在等待电话时排队等待执行大量任务:(。如果设备上的数据已备份,则值得确定要恢复的步骤。
Christopher人质

:(确实。当戴尔支持是下一个最佳选择时会受到伤害。试着找一些硬件文档并尝试解析它。感谢您的帮助。
Taylor F

1

据我所知,RAID 5允许阵列中出现1个磁盘故障。如有需要,可以相应地构建hotspare。控制器/ GUI或您正在使用的任何前端用于执行此操作。重建RAID所需的时间取决于使用的数据量。一旦建立了热备份,您的RAID理论上将恢复正常。此时,将SMART错误中的其中一个驱动器脱机并使用hotspare进程重建它。完成所有有错误的硬盘更换。我会用显示SMART错误的关键数据替换任何磁盘。您可以继续使用RAID 6,当然您必须通过移动它来备份所有数据,重建阵列并将其放回原处。RAID 6允许更多的磁盘故障,但您的写入速度确实很小。


是的,这显然是对这个设置的麻烦的警醒。听起来这个过程应该是自动的吗?我们确实更换了故障驱动器,但它似乎没有对设置进行任何更改。服务器正在使用Dell PERC,配置现在列在“外部配置”下。对于发生故障的驱动器,无法将其加载回活动配置设置。有关于让它工作的任何想法?
泰勒F

我只是阅读了我的评论并嘲笑它因为某种原因而被称为“hotspare”的事实。抱歉。我已经使用了dell perc并且我记得在构建raid时你选择了用作hotspare的磁盘,所以如果任何磁盘失败它接管然后你的故障硬盘会出现红灯。这是您更换的驱动器,然后成为热备件。现在全都回来了。我的建议是尽快恢复并获得dell的支持。如果您没有,请在具有备份的新硬件上尽快重建raid。你冒着失去交配的风险。
jpsaunders
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.