硬重置链接异常Emask 0x50 SAct 0x0 SErr 0x4090800操作0xe已冻结


8

以下情况:

具有内核的高效Linux debian 7服务器 3.2.0-4-amd64 #1 SMP Debian 3.2.68-1+deb7u2 x86_64 GNU/Linux

制造商:Supermicro 产品名称:X10SLL-F 版本:1.02

SATA控制器: Intel Corporation Lynx Point 6-port SATA Controller 1 [AHCI mode] (rev 04)

2个SSD,2个硬盘

每个驱动器都可以执行Sata Rev3(6.0Gb / s)

hdparm -I /dev/sd[a-d]|egrep "Model|speed|Transport"
    Model Number:       TOSHIBA THNSNH128GBST                   
    Transport:          Serial, ATA8-AST, SATA 1.0a, SATA II Extensions, SATA Rev 2.5, SATA Rev 2.6, SATA Rev 3.0
       *    Gen1 signaling speed (1.5Gb/s)
       *    Gen2 signaling speed (3.0Gb/s)
       *    Gen3 signaling speed (6.0Gb/s)
       *    SMART Command Transport (SCT) feature set
    Model Number:       TOSHIBA THNSNH128GBST                   
    Transport:          Serial, ATA8-AST, SATA 1.0a, SATA II Extensions, SATA Rev 2.5, SATA Rev 2.6, SATA Rev 3.0
       *    Gen1 signaling speed (1.5Gb/s)
       *    Gen2 signaling speed (3.0Gb/s)
       *    Gen3 signaling speed (6.0Gb/s)
       *    SMART Command Transport (SCT) feature set
    Model Number:       ST2000VX000-1CU164                      
    Transport:          Serial, SATA Rev 3.0
       *    Gen1 signaling speed (1.5Gb/s)
       *    Gen2 signaling speed (3.0Gb/s)
       *    Gen3 signaling speed (6.0Gb/s)
       *    SMART Command Transport (SCT) feature set
    Model Number:       ST2000VX000-1CU164                      
    Transport:          Serial, SATA Rev 3.0
       *    Gen1 signaling speed (1.5Gb/s)
       *    Gen2 signaling speed (3.0Gb/s)
       *    Gen3 signaling speed (6.0Gb/s)
       *    SMART Command Transport (SCT) feature set

内核消息提示(至少对我来说)所有4个驱动器都有问题,这使我相信是sata控制器可能出了故障。

ata1: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
ata1: irq_stat 0x00400040, connection status changed
ata1: SError: { HostInt PHYRdyChg 10B8B DevExch }
ata1: hard resetting link
ata2: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
ata2: irq_stat 0x00400040, connection status changed
ata2: SError: { HostInt PHYRdyChg 10B8B DevExch }
ata2: hard resetting link
ata4: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
ata4: irq_stat 0x00400040, connection status changed
ata4: SError: { HostInt PHYRdyChg 10B8B DevExch }
ata4: hard resetting link
ata3: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
ata3: irq_stat 0x00400040, connection status changed
ata3: SError: { HostInt PHYRdyChg 10B8B DevExch }
ata3: hard resetting link
ata3: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata4: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata1: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata4.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata4.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata2.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata2.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata1.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata1.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata3.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata3.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata2.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata2.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata1.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata1.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata2.00: configured for UDMA/33
ata2: EH complete
ata1.00: configured for UDMA/33
ata1: EH complete
ata3.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata3.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata4.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata4.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata3.00: configured for UDMA/33
ata3: EH complete
ata4.00: configured for UDMA/33
ata4: EH complete

我已经弄清楚(或相信已经弄清楚)的内容

命令SECURITY FREEZE LOCKDEVICE CONFIGURATION OVERLAY对这个问题并不重要。

在阅读了大约20个错误报告和大量文档时,一些链接确实建议禁用NCQ,而我确实这样做了。

首先是一台设备,在等待1天后检查错误是否再次发生,然后再次发生该错误,并且我为所有4台设备禁用了该功能

echo "1" >/sys/block/sdc/device/queue_depth

情况没有明显变化。

https://ata.wiki.kernel.org/index.php/Libata_error_messages

https://wiki.archlinux.org/index.php/Solid_State_Drives#Resolving_NCQ_errors

其他人则建议使用sata电缆,甚至在板+驱动器之间不兼容。

但是,由于我似乎在一个驱动器上有此问题,而这在所有4个驱动器中都存在,或者直接在所有4个设备上都有该问题,因此我无法进一步查明问题。

由于这是生产服务器,因此可以关闭该服务器进行维护(又名BIOS /内核参数更改),但我希望尽可能避免这种情况。

根据托管人的说法,这可能与电源管理有关:

https://bugzilla.kernel.org/show_bug.cgi?id=74961 https://bugs.launchpad.net/ubuntu/+source/linux/+bug/1318218

echo "medium_power" >/sys/class/scsi_host/host0/link_power_management_policy 

在更改之前,此设置为max_performance

这也没有帮助。

HDD / SDD的智能值还可以,没有什么太明显的。

请注意,UDMA值现在似乎只有33。

在服务器启动时,这是sata链接速度值:

[    3.161850] ata6: SATA link down (SStatus 0 SControl 300)
[    3.161867] ata2: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
[    3.161882] ata4: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[    3.161894] ata1: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
[    3.161907] ata5: SATA link down (SStatus 0 SControl 300)

这种情况可能仅在HDD上的高负载下发生,我尚未进行测试,因为这显然会影响服务器性能。

SSD上没有负载,它们已安装但未被任何进程使用。

据我所知,RAM是ECC。

dmidecode -t 17
# dmidecode 2.11
SMBIOS 2.7 present.

Handle 0x0023, DMI type 17, 34 bytes
Memory Device
    Array Handle: 0x0022
    Error Information Handle: Not Provided
    Total Width: 72 bits
    Data Width: 64 bits
    Size: 8192 MB
    Form Factor: DIMM
    Set: None
    Locator: P1-DIMMA1
    Bank Locator: P0_Node0_Channel0_Dimm0
    Type: DDR3
    Type Detail: Synchronous
    Speed: 1600 MHz
    Manufacturer: Samsung
    Serial Number: 373A6427
    Asset Tag: 9876543210
    Part Number: M391B1G73QH0-CK0  
    Rank: 2
    Configured Clock Speed: 1600 MHz

请让我知道是否可以提供其他信息,因为我缺乏下一步的想法。


直接询问供应商supermicro,如果托管服务提供商不这样做,他们可能会提供帮助。
丹尼斯·诺尔特

1
请注意,系统正在以1.5 Gbps重新协商。尝试强制使用1.5 Gbps,看看是否可以使系统稳定。这是一个数据点。尝试一下askubuntu.com/a/146290/11751,以获取有关如何做的简短文章。
CVn

Answers:


4

与驱动器通信出现问题后,服务器遇到的基本上是较低速度的SATA重新协商。

这些因素可以在这里起作用(按概率排序)

  1. 非常高延迟的IOPS操作(例如:由SSD控制器的垃圾回收引起)导致SATA命令超时。您的驱动器是否支持SATA Trim命令?如果是这样,请尝试运行fstrim /。它会改变什么吗?
  2. 主板/内存损坏:您的内存ECC是否受保护?如果不是,如果可以,请运行一个延长的(2小时以上)memtest86 +测试会话
  3. 硬件/软件驱动程序不兼容
  4. 坏的SATA控制器:虽然不太可能,但是您不能完全排除它
  5. SATA电缆/驱动器损坏:由于所有四个驱动器都会给您带来问题,因此这种情况极不可能发生

目前尚未使用ssd,似乎已使用ECC。来自dmidecode -t17:总宽度:72位数据宽度:64位
Dennis Nolte,

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.