了解smartctl -a输出


13

我的NAS盒中有6个驱动器。其中两个是Seagate,并且由于错误而返回高RAW_VALUES;见下文。

我的其他驱动器显示的值要低得多。

这是引起警报的原因吗?还是希捷报告的方式?

Raw_Read_Error_RateSeek_Error_Rate

# smartctl -a /dev/ada1
=== START OF INFORMATION SECTION ===
Device Model:     ST3000DM001-9YN166
Serial Number:    W1F09S26
LU WWN Device Id: 5 000c50 0456076fc
Firmware Version: CC4C
User Capacity:    3,000,592,982,016 bytes [3.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  ATA-8-ACS revision 4
Local Time is:    Sat Aug 18 17:34:24 2012 EDT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82) Offline data collection activity
                    was completed without error.
                    Auto Offline Data Collection: Enabled.
Self-test execution status:      ( 249) Self-test routine in progress...
                    90% of test remaining.
Total time to complete Offline 
data collection:        (  575) seconds.
Offline data collection
capabilities:            (0x7b) SMART execute Offline immediate.
                    Auto Offline data collection on/off support.
                    Suspend Offline collection upon new
                    command.
                    Offline surface scan supported.
                    Self-test supported.
                    Conveyance Self-test supported.
                    Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                    power-saving mode.
                    Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                    General Purpose Logging supported.
Short self-test routine 
recommended polling time:    (   1) minutes.
Extended self-test routine
recommended polling time:    ( 255) minutes.
Conveyance self-test routine
recommended polling time:    (   2) minutes.
SCT capabilities:          (0x3085) SCT Status supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   111   099   006    Pre-fail  Always       -       34053632
  3 Spin_Up_Time            0x0003   093   092   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       32
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   060   055   030    Pre-fail  Always       -       21480133713
  9 Power_On_Hours          0x0032   097   097   000    Old_age   Always       -       2696
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       32
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   064   061   045    Old_age   Always       -       36 (Min/Max 34/38)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       28
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       63
194 Temperature_Celsius     0x0022   036   040   000    Old_age   Always       -       36 (0 19 0 0)
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       43748536879750
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       2867098636991
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       17478042509157

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Self-test routine in progress 90%      2696         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Answers:


4

希捷使用SER(Seek_Error_Rate)编码两个不同的计数器:16个高权重位用于Seek错误计数,32个低权重位用于Seek计数。您可能希望使用十六进制显示来简化对这两个计数器的读取(6个半字节= 2表示错误计数+ 4表示查找计数)。

RRER(Raw_Read_Error_Rate)没有显示增量计数器,但是显示了-10 log(错误扇区数/磁盘上的总位数)之类的结果,它说明了最小值和最大值。保持在最高处更好。

有关此的更多说明:http : //www.users.on.net/~fzabkar/HDD/Seagate_SER_RRER_HEC.html


3

我见过的每一个Seagate硬盘都会报告这两个字段的原始值。

您可以做的一件事是实用程序(和驱动器)在内部做的事情:对照阈值检查归一化的值。当值下降到阈值时,该属性将报告为失败(或失败)。

您可以做的另一件事是永远不要购买另一个Seagate驱动器。我走了这条路,除非他们学会写固件,否则我不会再购买。


3

我发现自测结果非常可靠,并且它们是不言自明的(最后一次运行失败或通过)。

各种特定于供应商的属性就是这样。实际上,没有解释它们的标准化方法(这就是为什么smartmon工具使用这些值的解释来维护驱动器数据库的原因)。如果标记在这里,您可以找到许多含义的描述:http : //en.wikipedia.org/wiki/SMART#Known_ATA_S.MART_attributes

该行SMART overall-health self-assessment test result: PASSED是从其下方打印的值导出的,并由驱动器数据库对其进行转换,标准化和指定阈值。

对于归一化的值,通常越低越好,但是并非所有标志都表明它们本身预示着机械故障(有阈值的可能性更大)。诸如不可纠正的读取错误,旋转失败等之类的现象可能是指示。

从这些结果来看,您的驱动器看起来状态良好。


1

我要做的是检查读取的hwecc并寻求错误率。我还要检查以确保没有搬迁或待定的部门。在获得前三个的#号后,我会在驱动器上进行一堆复制,然后再次检查#号。如果它们没有大大上升,我会密切注意驱动器。如果他们开枪了,我会打电话给供应商,看看需要做什么才能获得RMA。

我有一个3年的旧驱动器,读取错误为23428590,搜寻错误为206428348,而ecc为27659067。多数民众赞成在hrs btw上电。而我的5.5年代旧驱动器具有0 0 687123415 ecc。智能故障是一种不错的预警系统,尽管这些数字可用于在驱动器上显示标签。我已经看到很少有驱动器能够在发生故障之前做出明智的预测。也是因为我3年的旧硬盘是希捷,而5年的三星是希捷运行到的热门产品:/我目前所有正在运行的希捷都有很多其他品牌没有的错误。

另一件事是保留驱动器的偶尔基准测试。HDD tune是Windows的一个很好的例子。如果您在没有交换文件或从图形启动的驱动器上运行它,则可以告诉您是否存在任何读取问题的区域。现代驱动器通常会从50mb +上升到25 mb左右的读取速率。如果您突然下探,则可能是该地区的板块疲软。如果您每个月或每三个月对驱动器进行一次基准测试,那么如果突然发生某些事情,您可能会很清楚。D4xx纬度是个很好的例子。当驱动器控制器开始出现故障时,读取速率将开始于5mb左右,偶尔会飙升至10mb以上,因此,我们一直都在驱动这些驱动器。您可能必须从bartpe磁盘等启动,以确保在测试时没有其他驱动器在使用。

我经常使用这些结果以及HDD调谐等在驱动器完全消失之前将其存储在驱动器上。


我必须补充一点,不是说自检结果是错误的,因为它表示驱动器发生故障,它们并不总是会发现驱动器发生故障或提前发出警告。我已经看到sme驱动器在工作中通过了所有测试,但是您可以听到咔嗒声或基准显示它在特定区域中的运行缓慢。一周后,它确实失败了。那一周内所有奇怪的应用程序挂起,等等,最终导致驱动器出现故障。
肯德里克

1

smartctl我盒子上的手册页提供了指向Linux Journal中其作者文章之一的链接;特别是清单3解释了的输出smartctl -a

即使它已有10多年的历史了,阅读它后我仍然发现它仍然有意义,并提供了权威的解释。


1
您可能需要在此处引用该部分,以便复制信息并防止断开的链接困境;-)
JepZ
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.