这些SATA错误是否很危险?


36

我经常遇到这些错误,而且我不知道它是否正常。

[39441.061856] ata3.00: failed to read SCR 1 (Emask=0x40)
[39441.061866] ata3.01: failed to read SCR 1 (Emask=0x40)
[39441.061892] ata3.15: exception Emask 0x10 SAct 0x0 SErr 0x280100 action 0x6 frozen
[39441.061897] ata3.15: irq_stat 0x08000000, interface fatal error
[39441.061904] ata3.15: SError: { UnrecovData 10B8B BadCRC }
[39441.061910] ata3.00: exception Emask 0x100 SAct 0x0 SErr 0x0 action 0x6 frozen
[39441.061917] ata3.01: exception Emask 0x100 SAct 0xe SErr 0x0 action 0x6 frozen
[39441.061923] ata3.01: failed command: READ FPDMA QUEUED
[39441.061933] ata3.01: cmd 60/a8:08:b0:48:62/00:00:00:00:00/40 tag 1 ncq 86016 in
[39441.061940] ata3.01: status: { DRDY }
[39441.061944] ata3.01: failed command: READ FPDMA QUEUED
[39441.061953] ata3.01: cmd 60/a8:10:b0:49:62/00:00:00:00:00/40 tag 2 ncq 86016 in
[39441.061959] ata3.01: status: { DRDY }
[39441.061963] ata3.01: failed command: READ FPDMA QUEUED
[39441.061972] ata3.01: cmd 60/58:18:58:4a:62/00:00:00:00:00/40 tag 3 ncq 45056 in
[39441.061978] ata3.01: status: { DRDY }
[39441.061987] ata3.15: hard resetting link
[39441.608302] ata3.15: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[39441.609090] ata3.00: hard resetting link
[39441.929246] ata3.00: SATA link up 3.0 Gbps (SStatus 123 SControl 320)
[39441.929333] ata3.01: hard resetting link
[39442.249184] ata3.01: SATA link up 3.0 Gbps (SStatus 123 SControl 320)
[39442.263242] ata3.00: configured for UDMA/133
[39442.277570] ata3.01: configured for UDMA/133
[39442.277725] ata3: EH complete

我还粘贴smartctl -aSDASDBSDC

在此先感谢您的帮助。

Answers:


16

虽然我基本上同意Geppettvs D'Constanzo的回答,但我建议您也可以尝试的一些第一件事是

  1. 检查SATA电缆是否牢固连接并插入主板和硬盘驱动器上的插槽。

  2. 装回SATA电缆。SATA电缆(相对)便宜,有时您确实会遇到“ 问题 ”。通常,简单地更换电缆是诊断和解决此类问题的最简单方法。

(尽管有些意外,两条电缆同时坏了。但是,检查起来很容易,因此我认为可能值得这样做。)

我刚刚看到您包含包含驱动器SMART数据的废纸bin。请注意,驱动器sdb和的CRC错误异常多sdc。我建议您首先检查这些驱动器的电缆和连接。

junior@mediacenter:/$ sudo  smartctl -a /dev/sda
...
Model Family:     SAMSUNG SpinPoint M7E (AFT)
Device Model:     SAMSUNG HM321HI
...
199 UDMA_CRC_Error_Count    0x0036   200   200   000   Old_age  Always -    0

junior@mediacenter:/$ sudo  smartctl -a /dev/sdb
...
Model Family:     SAMSUNG SpinPoint F4 EG (AFT)
Device Model:     SAMSUNG HD204UI
...
199 UDMA_CRC_Error_Count    0x0036   100   100   000   Old_age  Always  -  57

junior@mediacenter:/$ sudo  smartctl -a /dev/sdc
...
Model Family:     SAMSUNG SpinPoint F4 EG (AFT)
Device Model:     SAMSUNG HD204UI
...
199 UDMA_CRC_Error_Count    0x0036   100   100   000   Old_age  Always  - 398

好。因此,那不是 Latpop。;-)
当然,如果在笔记本电脑上发生这种情况,那么以上都不是适用的,我不确定会提供什么建议。也许删除并重新安装硬盘驱动器?也许只需要将其重新放置在其插槽中以改善连接即可?


sbdsdc连接在同一根外部e-sata电缆(Thermaltake Duo HDD Dock)上。我将更换我的e-sata电缆。

这可能是由于电缆故障或质量低劣所致。在使用驱动器时,电缆也可能以某种方式移动,碰撞或颠簸。


1
sbd并且sdc都连接在同一根外部e-sata电缆(Thermaltake Duo HDD Dock)上。我将更换我的e-sata电缆。
马科斯·少年

9

看来您的品质不佳/ SATA电源/数据线损坏。这可能会导致CRC错误。它们根本没有害处,您可以与它们一起生活,但是很快您将丢失大量数据。

您的硬盘驱动器的SMART报告看起来很健全,因此根据在5个硬盘驱动器中设置相同的机箱/电源时的经验,我会遇到电源问题。我完成了为2个驱动器使用外部电源(475W),为所有情况(包括GPU,光盘和硬盘驱动器)使用了600W的情况。

无论如何,我建议您先执行完整备份,然后再执行其他操作。如果可能,请克隆硬盘驱动器,然后再检查电缆和电源电压。


出于好奇,GPU是不是一个巨大的,耗费人力的GPU?
不合理的约翰

1
nVidia Quadro 4000,确实不那么饿。
Geppettvs D'Constanzo

1
有趣。我有一个400w的Antec(Neo-Eco)PSU,5个硬盘驱动器,2个光盘驱动器和一个NVIDIA GeForce 9500 GT,我认为我没有遇到任何与电源相关的问题。我确实有驱动器CRC错误,但是我认为它们是由于我前一段时间犯的愚蠢用户错误所致。(碰上电缆等。)我没有在内核消息中注意到任何警告日志。不过,我想我还是应该仔细观察一下,以确保安全。
不合理的约翰

1
1xIDE DVD-RW,1xSATA DVD-RW和1xSATA Blu-Ray ROM光盘驱动器位于此侧。4个SATA和1个IDE硬盘,GPU功耗为142瓦。我不能肯定地说这与电源问题有关,但是当我添加新的电源时,问题就消失了。顺便说一句,我的驱动器似乎很健康。但是谢谢你让我明白这一点。在这一方面,您的意见真的很受赞赏。谢谢!
Geppettvs D'Constanzo

1
呃,142瓦的GPU是…… 我的整个系统(通常)使用的资源少于此。当我键入此内容时,我的台式机盒的耗电量约为117瓦。(根据我忘记的Kill-A-Watt,我仍然将其插入。;-)
非理性的约翰

4

在某些内核版本和某些SATA控制器之间似乎存在问题。

我最近开始在运行Scientific Linux的Web服务器上遇到非常相似的问题(不确定是否相同)。

我发现的有关此问题的最准确和完整的信息是此启动板错误

简而言之:对于有此问题的用户,禁用NCQ似乎是最好的解决方法。


3
对于有故障的硬件,禁用NCQ是一种常见的解决方法。似乎没有内核错误。
psusi 2012

神圣的$#!+有效!我所有的错误消息都消失了,系统停止崩溃!我完全不同意不是内核错误,因为我可以使用较旧的内核版本(一直到至少2.6系列)而不会崩溃。我不敢相信我早就找不到了!
reukiodo

1

这几乎总是一个坏的驱动器,我使用了成千上万个驱动器,尽管这些错误从未导致驱动器发生故障,但它们却导致了文件系统损坏。我认为这确实与驱动器上的控制板有问题有关。

我已尽一切努力解决此问题,解决方法是更换驱动器,并且事情在相同的电缆和控制器上进行。

祝好运


经过30多年的故障排除工作后,我可以向您保证,根据我的经验,这几乎总是狡猾的电缆。而且由于它们便宜,因此您可以首先尝试。
极客

0

我知道该线程很旧,但是最近在新购买的具有6个sata插槽的计算机上遇到了相同的问题。我将cdrom和hardrive安装在彼此靠近的2个sata插槽上,然后继续安装ubuntu且没有错误,直到重新启动,然后才看到ata8:硬重置链接错误。机器停止运行,直至无法恢复。我尝试重新启动几次,但没有成功。然后,我尝试在4个可用插槽之一中更换hardrive,它工作正常而没有麻烦。


您的意思是您更改了硬盘驱动器插入的SATA端口,对吗?或者您是说用另一个硬盘替换了整个硬盘?我认为这是前者,但只是
仔细

是前者。
ultrajohn '17



0

我有同样的问题。我已经尝试了所有方法,但仅在asus p5k的j-micron端口上没有出现错误。

但是,当我将驱动器放到另一个电源上时,它可以工作并且错误消失了。然后,我将驱动器放回其原始电源,但又重新安装了一个新的电源连接器,它也起作用。


0

我知道这个线程很旧,但是遇到了同样的问题,来自谷歌。

  • 获得ata3.01: failed command: READ FPDMA QUEUED在引导KUBUNTU 16.04的LiveCD。
  • WINDOWS 7的行为会不稳定,可以正常工作一会儿,但是在观看youtube后会冻结。

更换SATA电缆没有任何作用。
更换了PSU,问题消失了。


0

该错误不太可能损坏您的硬盘驱动器,但很可能损坏您的文件系统。首先确定哪个驱动器引发错误。通常可以通过多种方法轻松确定这一点,例如:

1)发出命令dmesg | grep ata3并寻找硬盘的品牌和型号。(因为ata3是您遇到的情况引发错误的端口。请相应地进行调整),这将提供类似于以下内容的输出:

dmesg | grep ata3
[    4.756081] ata3: SATA max UDMA/133 abar m2048@0xf7f26000 port 0xf7f26200 irq 135
[    5.071981] ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[    5.077850] ata3.00: HPA detected: current 1953523055, native 1953525168
[    5.077959] ata3.00: ATA-8: SAMSUNG HD103SJ, 1AJ10001, max UDMA/133
[    5.077960] ata3.00: 1953523055 sectors, multi 16: LBA48 NCQ (depth 32), AA
[    5.084057] ata3.00: configured for UDMA/133

快速浏览一下,表明连接到ata3的驱动器是SAMSUNG HD103SJ

2)发出以下命令:

find -L /sys/bus/pci/devices/*/ata*/host*/target* -maxdepth 3 -name "sd*" 2>/dev/null | egrep block |egrep --colour '(ata[0-9]*)|(sd.*)'

这将在同一行上高亮显示端口和设备名称,如下所示:

输出

很容易看到连接到ata3的设备已被分配了设备名称sdb

3)安装lsscsi sudo apt install lsscsi并发出命令lsscsi

$ lsscsi
[0:0:0:0]    cd/dvd  ATAPI    iHAS124   F      CL9M  /dev/sr0 
[1:0:0:0]    disk    ATA      WDC WD2003FZEX-0 1A01  /dev/sda 
[2:0:0:0]    disk    ATA      SAMSUNG HD103SJ  0001  /dev/sdb 
[3:0:0:0]    disk    ATA      ST6000VN0033-2EE SC60  /dev/sdc 

请注意,上面每行的第一项是scsi_host,通道,target_number和LUN。它放在方括号中,每个元素都用冒号分隔。当有多个SCSI设备时,其条目将按升序排序。

只需在输出的每一行中的第一个数字上加上1,即可获得ATA端口。您可以在lsscsi 此处此处找到更多详细信息

由于在您的情况下,我们都看到在3.00和3.01上都抛出错误,因此您有多个驱动器连接到同一ATA端口。您将要仔细检查到ata3.00和ata3.01的连接性。这可能是连接到同一根电缆的多托架驱动器机箱。由于两个驱动器均抛出错误,因此更换上述多驱动器托架的电缆应该可以消除两个驱动器的问题。这些设备通常都具有外部电源,这也可能是罪魁祸首,需要更换,但是电缆(作为最弱的链路)是迄今为止最有可能导致此问题的根本原因。

资料来源:

经验

https://linux.die.net/man/8/lsscsi

http://sg.danny.cz/scsi/lsscsi.html

https://serverfault.com/questions/244944/linux-ata-errors-translator-to-a-device-name/868943#868943

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.