DL380 G5,RAID5,ext3,RAID失败


9

我们有一台旧的HP DL380G5服务器,在外部托架中的RAID5阵列中有5个300GB SCSI 3.5英寸磁盘,使用ext3文件系统格式化为逻辑卷,可容纳1.2 TB的敏感临床患者数据。

两张磁盘显示hpacucli发生预测性故障,因此我首先更换了其中一张,并确定可以,但是我没有看到它也显示“准备重建”。我也完全不小心更改了第二个,现在它说RAID已失败。

我退回了旧磁盘,尝试重新启动服务器,但是现在它在引导过程中使我进入恢复模式,并说找不到逻辑卷。

我可以做些什么来尝试恢复此状态?不幸的是,我们没有备份。任何帮助将不胜感激!

我当时正在考虑将两个旧驱动器都退还,是否有可能恢复RAID?


评论不作进一步讨论;此对话已转移至聊天
迈克尔·汉普顿

4
我想您的小组现在将开始进行备份。如果是必要性或成本问题,这应该是一个非常明确的警告镜头。
乔纳森·莱因哈特

Answers:


25

对不起。但这是操作员错误。

您在RAID5阵列上有两个发生故障的磁盘,并且卸下的磁盘超出了该阵列可以承受的数量。

在没有任何备份的情况下这样做是更大的错误。

您应联系数据恢复公司,以尝试从损坏的逻辑驱动器中检索数据。


1
听起来他知道这是操作员错误……那不是不问他现在可以做什么的原因
StarWeaver

@StarWeaver是的。下一步是联系数据恢复公司。
ewwhite

11

请勿再次打开系统电源。关闭它,致电数据恢复服务。有许多服务可用于对此类型的故障进行远程恢复。此时,您所能做的就是使情况变得更糟。

这通常涉及将所有驱动器直接连接到已知良好的HBA(而不是RAID卡或其他控制器!),并使用远程管理工具启动特定的可下载linux映像。然后,该公司远程访问系统,评估磁盘状态,并恢复剩余的RAID元数据。使用专有软件,他们可以重新组装虚拟RAID磁盘(技术细节:通常是插入标准Linux设备映射器系统的东西)。然后,这会公开RAID只读软件(不带RAID SoC加速器)。下一步是验证数据不会被破坏而无法使用,并将虚拟磁盘克隆到新磁盘以完成数据恢复。之后,您可以担心要重新启动系统并运行它。

虽然我在这里不打算列出任何服务,但是大多数服务都很容易找到,对于那些具有远程服务的服务(可以节省您将RAID驱动器+恢复驱动器运送给它们并等待恢复+克隆和然后他们将其发送回去),您将从数据中受益,而实际上从未离开您的设施。


一小笔好消息:只要RAID控制器(或您)没有将任何新数据写入任何磁盘,并且故障前警告不是故障警告,则实际上有99.9999%的机会一个好的数据恢复团队可以恢复所有数据,而且恢复速度也相当快。


5

回复:还原旧驱动器。

由于RAID的状态已完全消失,因此通过重新安装两个故障前驱动器,您几乎不会丢失。

一定要将它们安装在原始托架中。

请记住,它们的故障前不会完全失败,因此它们很有可能会运行足够长的时间来抢救您的数据。

袭击根本不会出现,并且控制器将要求“重置”袭击的机会很小(选择“否” /“取消”),袭击控制器可能会自动重置袭击,从而抵消任何价值的机会很小。由数据恢复公司添加。

因此,如果要启动RAID,则首先要拿出数据。这意味着至少要有1.2 TB的可用空间并准备好复制数据,并且要在Linux机壳 中运行类似robocopy或的工具。如果您的驱动器浪费了最后的时间,您不想浪费时间阅读手册页并弄清楚语法。xcopy32rsync


数据安全后,请使用新驱动器将RAID重新创建为RAID6。您将减少300GB的容量,但获得了两个驱动器的容差。或添加其他驱动器,并考虑对6个驱动器进行raid10。或考虑完全淘汰这台机器;G5已有10多年的历史了,实际上不再适合于重要的生产任务。

并且不尝试启动,而是也要设置适当的备份解决方案。会有下一次。


2
需要澄清的是,这样做的机会很小,但也不为零,这会使任何商业数据恢复公司更难于成功地为您提供帮助。就我个人而言,我会尝试重新组织突击检查,如果那没用,那就盘点一下。
Criggie '18
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.