硬盘因未知原因掉线


11

我有7个系统正在运行下面的设置。有时其他磁盘会脱机,但是仔细检查后,该磁盘将正常运行,并且不会出现故障,并且至少可以正常使用一年。因为这在所有7个系统上都发生,所以我发现不可能有单个部分起作用(例如电缆),而是部分不兼容的部分的组合。

问题是要找到不兼容的确切位置。

(如果您有一种解决方法,可以从命令行对硬盘进行虚拟重新放置,则可以回答/server/523315/re-activate-device -被认为是死的)。

服务器硬件:Dell 1950,Dell R815,Dell R715。

操作系统:

$ uname -a
Linux franklin 3.2.0-4-amd64 #1 SMP Debian 3.2.41-2+deb7u2 x86_64 GNU/Linux

控制器:

$ lspci |grep 22: 
22:00.0 Serial Attached SCSI controller: LSI Logic / Symbios Logic SAS2008 PCI-Express Fusion-MPT SAS-2 [Falcon] (rev 03)
$ sas2flash -listall
LSI Corporation SAS2 Flash Utility
Version 15.00.00.00 (2012.11.06) 
Copyright (c) 2008-2012 LSI Corporation. All rights reserved

    Adapter Selected is a LSI SAS: SAS2008(B2)   

Num   Ctlr            FW Ver        NVDATA        x86-BIOS         PCI Addr
----------------------------------------------------------------------------

1  SAS2008(B2)     15.00.00.00    0f.00.00.04    07.29.00.00     00:22:00:00

    Finished Processing Commands Successfully.
    Exiting SAS2Flash.

SAS / SATA扩展器,具有单个LSI SAS2X36扩展器芯片的Supermicro 4U SAS / SATA扩展器背板:

cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:21/end_device-5:0:21/target5:0:21/5:0:21:0/model
SAS2X36         
cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:21/end_device-5:0:21/target5:0:21/5:0:21:0/rev
0717

磁盘:

$ cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:1/end_device-5:0:1/target5:0:1/5:0:1:0/model
Hitachi HDS72404
$ cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:1/end_device-5:0:1/target5:0:1/5:0:1:0/rev
A3B0

一个系统中的磁盘:

$ cat /sys/devices/pci0000:20/0000:20:0b.0/0000:23:00.0/host5/port-5:0/expander-5:0/port-5:0:8/end_device-5:0:8/target5:0:8/5:0:8:0/model
ST3000DM001-9YN1
$ cat /sys/devices/pci0000:20/0000:20:0b.0/0000:23:00.0/host5/port-5:0/expander-5:0/port-5:0:8/end_device-5:0:8/target5:0:8/5:0:8:0/rev
CC4C

系统日志:

sd 5:0:22:0: [sdw] Unhandled error code
mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
sd 5:0:22:0: [sdw] Unhandled error code
mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
sd 5:0:22:0: [sdw]
mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 b9 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982694144
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 b7 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982693632
sd 5:0:22:0: [sdw] Unhandled error code
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Read(16):
sd 5:0:22:0: [sdw] Unhandled error code
 88 00 00 00 00 01 43 e2 f2 d0 00 00 00 10 00 00
end_request: I/O error, dev sdw, sector 5433914064
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 bd 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982695168
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
md/raid:md4: Disk failure on sdw, disabling device.
md/raid:md4: Operation continuing on 9 devices.
scsi 5:0:22:0: [sdw] Unhandled error code
scsi 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
scsi 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 b8 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982693888
scsi 5:0:22:0: [sdw] Unhandled error code
scsi 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
scsi 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 bc 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982694912
mpt2sas1: removing handle(0x0021), sas_addr(0x500304800182694c)

9
+1开始提出重要问题:)
斯文

不良的电缆,如果没有屏蔽层,可能会导致校验和问题。[因此导致读写问题]。您是否尝试过更换电缆?
僧侣

电缆已替换为已知产品。我也希望Linux在重置scsi总线后重试该命令。
Ole Tange

2
从到目前为止的经验来看,这些消息表明存在连接问题-不是SMART警报。.也许其他具有丰富BiY经验的人可以为您提供帮助。我所知道的是,由于与SAS相比缺少命令/队列,因此它们在大型设置中远离S-ATA磁盘。我请几个来看一下。
pauska

@pauska您能否详细说明(带有链接?)您所挖出的内容?
Ole Tange

Answers:


1

我们在这里缺少信息。您建议在此存储设置中,每台服务器有24-45个磁盘。

  • 您正在使用哪个特定的控制器?
  • 由于磁盘数量的缘故,您的外部机箱中可能有一些驱动器。请提供使用中的外部驱动器机箱的品牌/型号。
  • 您使用什么特定的驱动器型号?是否所有的磁盘的桌面级硬盘的?
  • 您正在使用什么文件系统?
  • 描述磁盘和RAID布局。
  • 这是否一直是一个问题,还是随着时间的推移而发展?
  • 超微参与此设置任何地方?

根据机箱设置,您可能会遇到SATA超时或总线错误。可能会对连接到控制器的所有驱动器产生不良影响

另一个问题可能是不良的SAS / SATA链路协商。当在同一块板上混合使用1.5Gbps和6.0Gbps驱动器时,我当然在某些SAS扩展器上就经历过这种情况。

请提供更多信息。


我对您有关Supermicro的问题非常感兴趣。你能详细说明吗?
Halfgaar

@Halfgaar您能否提供我提出的其他问题的反馈?
ewwhite

原始帖子不是我的。我只是对那句话感到好奇。
Halfgaar 2013年

1
@Halfgaar Ooops ...好吧,我发现Supermicro SAS扩展/背板和某些JBOD机箱在许多情况下无法正常运行。我的答案中有关SAS / SATA速度降级和链接协商的注释是我仅在某些Supermicro齿轮版本上才经历的。由于行为古怪,我也不能再将其JBOD用于ZFS。
ewwhite
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.