从穿孔RAID阵列中恢复


10

这是我的情况。

我有一台带Dell Perc 7i控制器(LSI控制器)的Dell服务器。

我有一个驱动器给我一个“预测故障失败”警告,所以我打电话给他们支持,他们出来更换了驱动器,并重新构建了阵列,这很标准。

两个星期后,我又开车给我失败预测警告。我认为这可能是不良的驱动器或巧合,等等。因此,我与支持人员联系并进行了更深入的了解。我意识到其他驱动器之一上有坏块没有发生故障,并且这些坏块在重建期间被复制了。所以现在我到处都有坏块,它们正在慢慢杀死我的阵列。我发现这被称为穿孔阵列。

因此,他们的建议是更换所有驱动器,重建阵列并从备份中还原。除非我有这个问题已经有几个星期了,这意味着我的备份是坏的...如果我从以前(一个月前)的备份中恢复,那么我的数据库中将丢失大约4周的数据,对于我们的办公室来说是完全不能接受的。

我的问题是...有没有人从这样的事情中恢复过来而不必丢失数据或没有整个方法(将其全部扔到窗外并重新开始)?

我确实找到了一个涵盖我的情况的链接,不确定是否可以阐明情况:http : //www.theprojectbot.com/raid/what-is-a-punctured-raid-array/

任何帮助或指示,将不胜感激!你们有什么感想?

Answers:


15

我假设您的系统仍在运行,所以最好的办法是立即备份,转储磁盘/阵列,重建并从备份还原。

坏块并不总是意味着您的备份也很糟糕。如果您没有遇到任何性能问题或文件损坏,那么您的备份仍应足够完整以完成还原。

要进行测试,请获取最新备份并检查最重要的数据。如果它仍然完好无损,则可能有一个很好的备份。

此时,存在风险,因为您不能100%地确定备份良好,或者现在备份不会导致文件丢失。但是,您的阵列最终失败并仍然会强制执行还原,因此这是您唯一的选择。


我知道,目前一切似乎都正常。因此,如果我现在能够对系统进行完整备份,并且更换驱动器,重建阵列并还原该完整备份...是否冒着再次失败的风险?还是我最好重新安装操作系统和软件,而仅还原数据库以最大程度地降低风险?
user72593 2014年

坏块通常不会在文件级别发生。如果您发现损坏的文件,我只会这样做。
弥敦道C

@NathanC您不会得到“坏块”,而是会损坏数据。
JamesRyan

@ user72593仅仅因为您今天就能备份文件,并不意味着它们不会缺少部分。观察优缺点的唯一方法是将其与备份进行比较。
JamesRyan 2014年

1
@JamesRyan“坏块”可以在磁盘上的任何位置,包括交换,临时文件或以前使用但现在未使用的空间。当驱动器有坏块时,并不总是意味着数据丢失。
弥敦道C

8

此时此刻,请执行以下操作:

  • 停止循环备份或删除该系统的旧备份。您要保留当前拥有的所有备份。
  • 对服务器进行完整备份。

希望磁盘仍然足够好,可以保证您的数据完整无缺,并且在运行新的完整备份时不会遇到任何问题。

然后废弃这些磁盘,并构建一个新的RAID阵列。准备就绪后,请尝试从您刚才所执行的备份中还原。运气好的话,这就是您需要做的。

如果失败,请尝试下一个最旧的和另一个旧的,等等。确保测试系统的功能-仅因为它启动,并不意味着它可以完全正常运行。特别是,测试数据库是否损坏。

如果您必须从旧的备份中还原整个系统,那就可以了。进行最新的备份,然后仅还原数据库文件和其他重要文件。测试它们以确保它们正常工作。同样,如果失败,请尝试下一个最旧的。

使用此过程可以最大程度地减少数据丢失。


我知道,这回答了我的问题。因此,只要我的备份完好无损,我就很好,如果不是,那么...我必须处理它。谢谢。
user72593 2014年

4

Grant和Nathan C提供的答案非常适合您如何继续进行备份/还原以及解决数据完整性问题。

这是一些有关在重新创建虚拟磁盘并从备份还原时如何处理RAID集的更清晰的详细信息:

  • 验证您是否拥有良好的数据备份
  • 删除现有的虚拟磁盘;之后,所有磁盘应显示为“就绪”状态
  • 重新创建一个新的虚拟磁盘;推荐设置:自适应预读,回写和磁盘缓存禁用
  • 您应该具有正在进行后台初始化的在线虚拟磁盘。
  • 继续从备份还原;对于7.2K主轴,后台初始化通常以600GB / hr的速度运行,因此,如果您的备份还原可以比其更快地运行,则应为init抢先一步,否则,如果在备份期间没有立即可用的新空间,则备份软件可能会出现写入延迟问题。恢复。

注意:如果你已经使用RAID5,你应该SERIOUSLY考虑采用RAID6这个时候。根据当前行业标准的最佳实践,在这种大小的阵列上,RAID5对于业务关键数据不可靠。大容量SATA / NL-SAS磁盘在重建过程中遇到URE的风险也更高,这会导致像您要处理的那样的穿孔。RAID6大大降低了这种风险,并且对于具有当前可用驱动器容量的关键数据通常是可接受的。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.