3Ware RAID6阵列有时会挂起。未检测到损坏的磁盘?
我们有一台Debian服务器,带有3Ware 9650SE 8驱动器RAID控制器,带有5磁盘RAID6阵列,充当Linux的虚拟机主机。问题不断发生,我怀疑未检测到损坏的磁盘。 现在,我们发生了几次崩溃,主机和所有来宾都说IO系统阻塞了120秒或更长时间。我们怀疑RAID控制器出现故障,但是我们用相同的固件替换了相同的固件,但无法修复。我认为不会,因为第二个RAID1阵列保持正常工作。 大约一周前(星期日),当此操作执行时,自动验证率为66%。昨晚(星期五上午)为67%。在启动之前和之后,以及在遇到问题时。当我关闭的验证时tw_cli /c0/u0 stop verify,事情再次变得敏感。 我怀疑它被卡在大约66%的磁盘故障上。自动验证从星期六开始: # tw_cli /c0 show verify /c0 basic verify weekly preferred start: Saturday, 12:00AM 通常会在星期五之前完成。看到星期日是66%,星期五是67%,这不太可能是巧合。 所有驱动器上的“ smartctl -a -d 3ware,0 / dev / twa0”和“ smartctl -t long”(长时间SMART自测)均未显示任何错误。也没有tw_cli /c0 show alarms。 我怀疑磁盘以某种难以检测的方式损坏了,但是我将每个驱动器一个一个地从阵列中取出,从中创建了一个“单个”阵列,并用全零填充。没有磁盘显示错误。 或其他建议? 编辑: 这是布局: # tw_cli /c0 show Unit UnitType Status %RCmpl …