仍然很糟糕:按照建议的步骤操作后,主机适配器中止请求错误


9

我遇到了臭名昭著的acracraid:在高I / O下,我的新Adaptec RAID控制器出现主机适配器中止请求错误。我已经阅读了几个论坛,甚至Adaptecs,将/ sys / block / sdX / device / timeout值设置为45可以解决此问题。但是我正在运行Ubuntu Server 12.04,默认情况下该值已为45。我还尝试了下一个建议,那就是将我的主板的BIOS更新到最新的建议。

我不确定在执行这些步骤之前,是否还有其他人遇到过此“ aacraid:主机适配器中止请求”错误。

这是我在系统日志中看到的:

kernel: [ 5493.523282] aacraid: Host adapter abort request (4,0,0,0)
Jan  6 20:29:15 server kernel: [ 5493.523309] aacraid: Host adapter abort request (4,0,0,0)
Jan  6 20:29:15 server kernel: [ 5493.523375] aacraid: Host adapter reset request. SCSI hang ?

这是我的女神-a

Linux server 3.2.0-29-generic #46-Ubuntu SMP Fri Jul 27 17:03:23 UTC 2012 x86_64 x86_64 x86_64 GNU/Linux

谢谢大家,

吉姆

Answers:


1

万一您还没有解决这个问题,我最近也遇到了同样的问题,随着IO的增加,该问题迅速升级为每5分钟挂掉阵列两分钟。默认情况下,Ubuntu使用CFQ调度程序,这对于硬件RAID并非最佳选择。使用以下命令将调度程序切换为noop:

echo noop > /sys/block/<blockdevice>/queue/scheduler

就我个人而言,我仍然使用旧内核,但有人告诉我也升级到最新的aacraid驱动程序应该可以解决此问题-尽管无法验证。但是,即使如此,请切换到noop。由于sysfs不是永久性的,因此您可能需要设置调度程序/etc/rc.local或使用elevator=boot参数。

我会注意其他内核参数以及Ubuntu上的设置对于大多数常见硬件来说都是合理的默认值,但是大多数时间服务器确实需要特别注意,无论您使用的发行版为何。


1

如果您的Adaptec RAID控制器具有自己的固件/ BIOS,则可能需要对其进行更新。在高I / O期间我们遇到了问题,并且也收到了“ aacraid:主机适配器中止请求”,并且看到的固件版本比我们当前的固件版本新,其中说“解决了在高I / O压力下固件可能挂起的问题”。http://download.adaptec.com/pdfs/readme/relnotes_arc_fw-b18937_asm-18837.pdf

以上发行说明列出了以下Adaptec型号:2045、2405、2405Q,2805、5085、5405、5405Z,5445、5445Z,5805、5805Q,5805Z,5805ZQ,51245、51645、52445)。

我们还获得了如下日志行:

sd 0:0:0:0: timing out command, waited 360s

Result: hostbyte=DID_OK driverbyte=DRIVER_TIMEOUT,SUGGEST_OK

在网上搜索以查找其他人遇到类似问题时,我们发现另一行卡已通过固件修复了以下可能相关的问题:

以上两个适用于Adaptec型号7805、7805Q,78165、71605E,71605、71605Q,71685、72405、8805、8885、8885Q和81605ZQ。


我认为当我使用arcconf命令行实用程序作为常规Nagios监视脚本的一部分来查询阵列的状态时,控制器将挂起。如固件说明所示,使用arcconf会导致控制器挂起。
Stefan Lasiewski 2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.