3Ware的tw_cli对“已降级”磁盘与“ ECC错误”的含义是什么?


10

我在3ware 9650SE-16ML卡上有一个可悲的RAID阵列。我无法确定的是我是否刚刚经历了双磁盘故障(糟糕!),或者我读错了。的相对输出/c0 show all是:

Port   Status           Unit   Size        Blocks        Serial
---------------------------------------------------------------
p0     DEGRADED         u0     931.51 GB   1953525168    5QJ07MAH            
p1     ECC-ERROR        u0     931.51 GB   1953525168    5QJ0DCW9            
p2     OK               u0     931.51 GB   1953525168    5QJ0DW9C            
p3     OK               u0     931.51 GB   1953525168    5QJ0CKXJ            

失败是(来自show alarms):

Ctl  Date                        Severity  Alarm Message
------------------------------------------------------------------------------
c0   [Sun Nov 20 07:47:23 2011]  INFO      Rebuild started: unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Drive ECC error reported: port=1, unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Source drive error occurred: port=1, unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Rebuild failed: unit=0
c0   [Sun Nov 20 08:20:12 2011]  INFO      Rebuild paused: unit=0

认为发生的情况是p0失败,然后p1出现ECC错误(也就是我的数据不见了)。但是...也许不是吗?重建率保持在97%,但无法克服此错误。

据我所知,以前的管理员关闭了定期验证,这使我们进入了这种状态。大多数人都不用担心3Ware RAID这件事!

更新资料

经过几天的殴打之后,我做了IgnoreECC位,并对其进行了重建,但是我的数据已被清除。mm


如果有任何重要数据,请尝试使用Freezer Recovery方法。
克里斯S

我不是反对冷冻技巧的人,但不是针对特定的故障模式,不仅仅是“我的驱动器死了”吗?
比尔·魏斯

标为DEGRADED的磁盘是REBUILD操作的目标磁盘。
wazoox 2011年

Answers:


7

ECC错误表示驱动器上至少有一个不可读的扇区。但是,如果幸运的话,该卷上的文件系统实际上可能不会使用该扇区,因此,您仍然可以在此状态下从阵列复制数据。

还有一些选项可以在重建过程中忽略ECC错误:

/cx/ux start rebuild disk=p [ignoreECC]
/cx/ux set ignoreECC=on|off

但是,使用这些选项意味着受坏扇区影响的RAID条带将被损坏(不确定在这种情况下卡将执行什么操作,它可能用零甚至随机数据替换整个条带),因此,“恢复”阵列实际上可能具有无法检测到的损坏(如果受影响的条带位于某个数据文件的中间)。在尝试重建之前,将数据从阵列复制到其他地方可能更安全(至少在尝试读取不良区域时会出现错误)。

您应该设置阵列的计划验证,以更早地捕获不可读的扇区,以便可以更换刚开始变坏的驱动器。


我现在正在做ignoreECC位。不太适合我的数据。
比尔·魏斯

1
是的,我们应该让阵列不时进行验证。我推测,出于性能原因,进行此设置的人已将其关闭:(
比尔·韦斯

好吧,这是通过重建获得的,但已在我的数据上命名。mm 那将教我们关闭验证...
比尔·魏斯

4

我从未经历过物理驱动器(p0)进入已降级状态的问题,但是您可以通过以下方式将其删除,以取回ECC-ERROR驱动器甚至是已降级的驱动器:

/c0 p1 remove

然后发出重新扫描

/c0 rescan

通过以下方式将它们放回团队

maint rebuild c0 u0 p1

使我无法通过ECC-ERROR进行故障的SATA驱动器,即使只是几个小时,也可以重新恢复。


3
在当前状态下卸下p1驱动器可能会完全堵塞阵列。
谢尔盖·弗拉索夫

我使用p0驱动器(假设它是坏驱动器)进行了此操作,并且正在尝试重建,但是几乎立即将驱动器标记为DEGRADED。mm
Bill Weiss,

1
事后,驱动器在重建期间保持标记为“已降级”(例如,请参见此处)。重要的是阵列状态(REBUILDING还是其他?)。
谢尔盖·弗拉索夫

嗯 实际上,它正在重建...所有四个驱动器都频繁闪烁,这是一个好兆头,对吗?
比尔·魏斯

稳定重建... 4小时后达到37%。mm
比尔·威斯

2

您的数据很可能已丢失。ECC错误表示从该磁盘读取数据时发生不可恢复的错误。

如果没有备份,则可以尝试转储阵列的当前状态。之所以可能这样做,是因为控制器不知道它是丢失了数据还是只是一个空白区域(对文件系统没有任何了解)。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.