解密连续的mpt2sas syslog消息

15

摘要

自从我安装了一些新的硬件以来，我一直在syslog中得到这些神秘的消息，但是我无法弄清楚问题出在哪里，如果严重的话，或者要怎么做。

它们来自新的SATA HBA，并且遵循一种模式。5-30秒后，我将收到第一条消息中的几条，随后第二条消息中的几条。它们以blob记录，它们都记录在同一秒内，每个记录的确切数量在2到35之间变化。两次显示之间可能是几分钟或几小时。

这两个消息的示例：

Jul 13 06:06:23 durandal kernel: [366918.435596] mpt2sas0: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Jul 13 06:06:28 durandal kernel: [366923.145524] mpt2sas0: log_info(0x31110d01): originator(PL), code(0x11), sub_code(0x0d01)

它始终始终为0x31120303，后跟0x31110d01。

mpt2sas是我正在使用的SATA主机总线适配器的驱动程序，但是错误内容过于含糊。它并没有告诉我问题出在哪里，它在使用哪个磁盘或端口，或者它有多严重。

硬件

具有Xeon E3-1220和8GB RAM的Supermicro X9SCL。

基于LSI SAS2008的Supermicro AOC-USAS2-L8I SAS / SATA HBA连接到Supermicro CSE-M35T-1B磁盘托盘组。它具有插入的三个Western Digital WD30EZRX和两个Segate ST3000DM001。所有3TB驱动器（实际上完全相同的扇区数）。没有使用端口扩展器。

HBA，磁盘托架和四个驱动器是新的。其中一台WD30EZRXes已投入使用数月之久，没有任何问题。之前已将其连接至集成的Intel SATA控制器，然后使用此新设置将其移至驱动器托架中。

HBA出现问题，需要频繁重置并获得真正的糟糕性能。将固件/ BIOS更新为“阶段12”，这是Supermicro提供的最新版本，并将类型更改为IT（即直通，因为我要使用所有软件RAID，因此从IR进行集成RAID）：2008IT12.FW。该更新解决了所有早期问题，直到后来我才开始收到上述消息（请参阅下文）。

我添加的前四个磁盘都在第一个SFF-8087端口上（分为4根SATA电缆）。如果重要的话，我添加的最新磁盘在另一个端口上。

系统上唯一的其他磁盘包含操作系统，并且是插入集成SATA控制器中的较旧的Intel 80GB SSD。

软件

Ubuntu 11.10（oneiric）。Linux 3.0.0-14-服务器x86_64。使用操作系统随附的mpt2sas驱动程序。

尝试使用具有这五个磁盘的Linux md构建RAID6阵列。从3个磁盘的退化阵列开始，两个是Segates和一个新的WD驱动器。这非常快并且运行得很好，在执行固件更新后，日志中没有消息。同时，我仍在同一控制器的端口0上使用旧的WD磁盘。

将另一个新的WD磁盘添加到阵列。重建开始了，现在我定期在syslog中获取这些消息。我不确定将磁盘添加到阵列需要多长时间，但是估计时间（cat / proc / mdstat）从数千到数万分钟不等，比前三个磁盘要花费的时间长得多。我确实知道WD磁盘要慢得多。我有不同的型号来减少发生多个磁盘故障的机会，而那是两个最便宜的3TB型号。

笔记

SMART不会报告任何磁盘上的任何问题。任何磁盘上都没有记录的错误，并且任何故障统计信息都没有接近阈值。

在我添加了最后一个磁盘之后，才开始显示记录的消息，这表明可能是有问题，但是我没有其他指向该问题的信息。

我确实找到了一个似乎与此驱动程序的日志记录消息相对应的头文件。第一条消息似乎是未列出的“子代码” 0303的中止（代码12）。第二条消息是重置（代码11），原因也不清楚。如果我可以确定0303和0d01的含义，那将非常有帮助。

我知道5磁盘RAID6中的4磁盘是不完整的阵列。我计划在完成第四个磁盘的集成后将旧磁盘的内容复制到阵列，然后将旧磁盘也添加到阵列。

— 克里斯·史密斯
source

5

最好的选择可能是磁盘之间，甚至包括您的SAS RAID控制器在内的某个硬件问题。我建议尝试：

运行供应商提供的所有诊断工具（如果有）
检查/重新安装/更换电缆
剥离硬件组件，并交换将磁盘连接到RAID控制器的链中的硬件，包括控制器本身（即，对您而言，尝试使用主板集成RAID以外的其他方法）。

我有两个十分相同的Dell PowerEdge R515，它们发出非常相似的消息（尽管我没有确切的数字代码，但日志定期填充mpt2sas0消息）。戴尔自己的可启动诊断程序将这些错误视为“硬件错误”，并且更换RAID sas背板解决了该问题。

当我进行调查时，找不到关于各种mpt2sas0错误代码含义的全面资源。我怀疑它们甚至可能是特定于硬件供应商的（更了解SAS的人需要确认或否认这一点）。因此，您的错误代码可能意味着相差很大的东西，但是如果SMART是干净的，则很难想象mpt2sas0报告错误代码的其他良好原因。

这些错误可能非常严重。我的R515在12磁盘Ubuntu Linux软件突袭6的情况下似乎可以正常工作一周，但是随后突然将所有12磁盘弹出，损坏了（！）。

同样在我的情况下，所有磁盘的SMART都完全干净。良好的检查是一种明智的自我诊断测试：smartctl -t long /dev/sdX，然后使用大约一天后检查结果smartctl -l selftest /dev/sdX。如果一切正常，则测试应说明Completed该LBA_first_err列应为空。

— 里卡德·阿明托
source

注意：RAID控制器（实际上是HBA）已经是单独的卡。板载SATA控制器工作正常。我的订单上确实有备用SFF-8087电缆，明天就可以到这里。这是我目前最大的怀疑。

— 克里斯·史密斯

电缆不良是问题所在！我将它们（两个SFF端口）都替换为更高质量的电缆，此后再没有任何问题！我接受您的回答，因为它是最长的，并且确实表明电缆不好。PS我肯定做了长时间的SMART测试；在任何磁盘上都没有问题。

— 克里斯·史密斯

很高兴得知您发现了问题。感谢你的接纳。

— 里卡德·阿明托

对我来说，我真的很奇怪，在遇到Dell PowerEdge平台的情况下，我也曾遇到过这个问题。同样的结果是电缆问题...

— Mazeryt

3

哇，一个艰难的人。

这似乎表明0x31120303是总线复位，原因是您的其中一个设备处于高负载状态。它还说您不必担心。（哈哈，是的。）

这表明这些日志消息正在发生，因为您的一台设备花费太多时间来响应命令。这说的是同一件事，也表明它是在重负载下发生的。

虽然这不是一个完整的答案，但希望它将为您指明一个有用的方向。

— 迈克尔·汉普顿
source

我看到了其中一些帖子，但始终无法找到确切的消息。原来是SFF-8087-> SATA电缆损坏。谢谢您的帮助！

— 克里斯·史密斯

0

这意味着您的磁盘上有一些错误，它是LSI SAS控制器中的SATA磁盘，由于该错误，所有未完成的请求都被中止。

在大多数情况下，磁盘上存在中等错误，这是此错误的触发因素。该错误本身并不意味着中等错误，您需要检查日志中是否有其他提示，以查找原始磁盘故障的根源。

略微详细的版本位于：http : //blog.disksurvey.org/blog/2014/03/27/sata-handling-of-medium-errors-log-info-0x0x31080000/

— 巴鲁·埃文
source

有趣的帖子，谢谢分享！SATA是一个糟糕的协议，但是磁盘很便宜，可以满足我的需求。自从更换故障电缆以来，该消息未再出现。

— 克里斯·史密斯

1

可以通过我创建的用于解密它的工具找到LSI Loginfo的更多解码信息：blog.disksurvey.org/blog/2014/08/10/decoding-lsi-loginfo-codes

— Baruch Even