我们有一台Debian服务器,带有3Ware 9650SE 8驱动器RAID控制器,带有5磁盘RAID6阵列,充当Linux的虚拟机主机。问题不断发生,我怀疑未检测到损坏的磁盘。
现在,我们发生了几次崩溃,主机和所有来宾都说IO系统阻塞了120秒或更长时间。我们怀疑RAID控制器出现故障,但是我们用相同的固件替换了相同的固件,但无法修复。我认为不会,因为第二个RAID1阵列保持正常工作。
大约一周前(星期日),当此操作执行时,自动验证率为66%。昨晚(星期五上午)为67%。在启动之前和之后,以及在遇到问题时。当我关闭的验证时tw_cli /c0/u0 stop verify
,事情再次变得敏感。
我怀疑它被卡在大约66%的磁盘故障上。自动验证从星期六开始:
# tw_cli /c0 show verify
/c0 basic verify weekly preferred start: Saturday, 12:00AM
通常会在星期五之前完成。看到星期日是66%,星期五是67%,这不太可能是巧合。
所有驱动器上的“ smartctl -a -d 3ware,0 / dev / twa0”和“ smartctl -t long”(长时间SMART自测)均未显示任何错误。也没有tw_cli /c0 show alarms
。
我怀疑磁盘以某种难以检测的方式损坏了,但是我将每个驱动器一个一个地从阵列中取出,从中创建了一个“单个”阵列,并用全零填充。没有磁盘显示错误。
或其他建议?
编辑:
这是布局:
# tw_cli /c0 show
Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
------------------------------------------------------------------------------
u0 RAID-6 OK - - 256K 5587.9 RiW OFF
u1 SPARE OK - - - 1863.01 - OFF
u2 RAID-1 OK - - - 1862.63 RiW ON
VPort Status Unit Size Type Phy Encl-Slot Model
------------------------------------------------------------------------------
p0 OK u0 1.82 TB SATA 0 - ST32000542AS
p1 OK u0 1.82 TB SATA 1 - ST32000542AS
p2 OK u0 1.82 TB SATA 2 - ST32000542AS
p3 OK u0 1.82 TB SATA 3 - ST32000542AS
p4 OK u0 1.82 TB SATA 4 - ST32000542AS
p5 OK u1 1.82 TB SATA 5 - WDC WD2002FYPS-02W3
p6 OK u2 1.82 TB SATA 6 - WDC WD2002FYPS-02W3
p7 OK u2 1.82 TB SATA 7 - WDC WD2002FYPS-02W3
Name OnlineState BBUReady Status Volt Temp Hours LastCapTest
---------------------------------------------------------------------------
bbu On Yes OK OK OK 0 xx-xxx-xxxx
有问题的单位是u0。
编辑2:
tw_cli / c0 show diag显示了一些有趣的内容(edit3:这是无害的,我发现这是由于调用smartctl -a -d 3ware,X /dev/twa0
X是无效端口所引起的):
QueueAtaPassthrough() called with invalid TargetHandle: 0x17, portHandle: 0xFF
Legacy opcode=0xB1 error=0x10E
E=010E T=14:15:51 : Invalid operation for specified port
E=010E T=14:15:51 U=0 : Return error status to host
Error, Unit 23: Invalid operation for specified port
(EC:0x10e, SK=0x05, ASC=0x24, ASCQ=0x00, SEV=01, Type=0x70)
No additional sense data
Error, Unit 23: 0x10E OVERRIDDEN due to invalid sense buffer descriptor
sense buffer: len=0, address=0x414ca2c7c
Send AEN (code, time): 0031h, 06/21/2013 14:26:16
Synchronize host/controller time
(EC:0x31, SK=0x00, ASC=0x00, ASCQ=0x00, SEV=04, Type=0x71)
我得到很多。我不知道这是什么意思。我什至无法确定它是哪个单元或端口。(edit3:我现在知道了,这是无害的)。
鉴于我的edit3,我回到正题。没有任何迹象表明磁盘已损坏,除了验证挂起在66%并导致阵列挂起(有时还随机发生)之外。我希望验证能找到问题...