我应该担心SMART Hardware_ECC

16

我在收到这样的消息/var/log/messages：


Jun 25 06:29:27 server.ru smartd[4477]: Device: /dev/sda, SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 46 to 47

#smartctl -a /dev/sda：


smartctl version 5.38 [i686-redhat-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   110   088   006    Pre-fail  Always       -       28526210
  3 Spin_Up_Time            0x0003   093   093   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       24
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   087   060   030    Pre-fail  Always       -       471723621
  9 Power_On_Hours          0x0032   098   098   000    Old_age   Always       -       2520
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       41
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   068   052   045    Old_age   Always       -       32 (Lifetime Min/Max 31/35)
194 Temperature_Celsius     0x0022   032   048   000    Old_age   Always       -       32 (0 27 0 0)
195 Hardware_ECC_Recovered  0x001a   047   045   000    Old_age   Always       -       105036390
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0000   100   253   000    Old_age   Offline      -       0
202 TA_Increase_Count       0x0032   100   253   000    Old_age   Always       -       0

这是否意味着磁盘出现故障，我必须更换它？在哪里可以阅读有关SMART测试结果的解释？

linux hardware smart

— 莱克斯
source

13

根据Spinrite的成名史蒂夫·吉布森（Steve Gibson）所说，SMART值必须随着时间的推移而变化，而不是作为瞬时读数。这意味着，如果47个月的值一直为47，则不一定很糟糕。但是，如果该值是一个小时前的42，并且迅速攀升，则意味着该驱动器在访问部分数据时遇到困难，并且可能很快将无法读取该扇区。根据该驱动器上的数据值，您可能希望替换它。

— 戴夫·切尼
source

+1是一个很好的答案，并添加到其中。如果您真的对Lexsys感兴趣，我会购买一份spinrite并运行它。您将需要您的系统能够从CD引导，但是操作系统没有意义。（虽然需要创建引导CD，但您需要Windows或Windows克隆）

— Matt Matt

Spinrite带有一个可引导（freedos）.iso映像，您可以用任何当前的操作系统刻录该映像

— Dave Cheney09年

grc.com/sr/spinrite.htm将是链接的更好地方

— Brad Gilbert

2

这个例子是错误的！参见@CesarB的答案-对于大多数值，增加是好的！因此，如果是一个小时前的42点，现在是47点-很棒。但并非相反。

— Volker Siegel 2014年

6

实际上，此属性的较高值非常好：

硬件ECC恢复的SMART参数指示两次ECC校正错误之间的时间。

https://kb.acronis.com/content/9131

— 罗伯特·克莱姆
source

2

补充了我认为是中心报价的内容。

— 罗伯特·克莱姆

现在即使链接的资源消失了，这也是有道理的。谢谢罗伯特。

— 小鸡

4

首先，对于SMART而言，较低的值更糟，而不是较高的值（请注意阈值列始终如何低于当前值）。因此，增值无需担心。（但是，此规则不适用于原始值。）

SMART值趋于振荡（例如，您可能处于46到47之间的边缘，因此，即使很小的变化也可能使其翻转到另一个值）。

您的smartctl -a输出显示此值最糟糕的是45，因此其振荡略高于正常值。

有关更多信息，请参阅Wikipedia：ATA SMART属性。

— 塞萨尔B
source

3

请记住，即使Google进行了广泛的研究，也发现大量驱动器故障不是由SMART错误预测的。您可能看到的是完全正常的，但是由于每个制造商对于将原始值转换为报告的值都有不同的度量标准，因此很难确定您的驱动器是否遇到很多错误。但是，如此庞大的原始数字确实令我感到奇怪。

我建议阅读所有驱动器（dd或rsync到新驱动器）并检查SMART值。如果您看到该原始数字或报告的值，请进行很多更改，我将开始寻找更换驱动器的方法。

— 杰森
source

嗯让ZFS根据自己的使用模式跟踪SMART属性将非常酷。

— i336_

1

没错。

你总是可以跑

smartctl -t long /dev/yourdrive

然后几个小时后查询其结果

smartctl -a /dev/yourdrive

只是要确定。

— sta骨
source

1

恢复的IIRC硬件ECC是对磁盘读取的错误纠正，这在磁盘上并不常见，并且正是出于这个原因，它们使用错误纠正机制对数据进行编码。一些控制器还支持磁盘扇区中的冗余信息，并增加了另一层错误纠正。

正如戴夫·切尼（Dave Cheney）指出的那样，应随时间监视数字。这些统计数据的急剧变化表明驱动器发生故障。另外，请注意增长的缺陷列表-如果增长的缺陷列表开始增长，或者SMART统计信息开始发生显着变化，则应预防性地更换驱动器。

— 关注TunbridgeWells
source

1

大声笑，预防性地

— Dave Cheney

我应该担心SMART Hardware_ECC_Recovered值高吗？