有多少SMART部门重新分配指示出问题?


17

我有一台刚刚使用一个月以上的NAS设备。它配置为向我发送从硬盘驱动器的SMART数据生成的警报。一天后,其中一个硬盘驱动器报告一个扇区损坏并被重新分配。在第一周,该硬盘的总数上升到六个扇区。一个月后,这个数字达到了9个重新分配的扇区。这个速度肯定在减速。

NAS在RAID-5配置中配置了六个1.5 TB驱动器。有了如此大容量的驱动器,我希望一个扇区会不时出现故障,因此我不必担心前几个扇区何时被迁移。尽管没有其他磁盘报告任何问题,这使我感到困扰。

我应该以什么比例的迁移率(或迁移总数)开始担心驱动器的健康状况?这会根据驱动器的容量而有所不同吗?


好人,杰里米。在serverfault上,这是最好的方法之一,在这里很多其他人都会发现它很有用,而且很难找到答案。绝对值得+2。您可能想改一下这个问题,以便它不是特定于NetGear的,而是通常用于存储的
用户名,2009年

感谢您的反馈,我做出了您建议的更改并更新了情况。
杰里米,2009年

1
我在一个重新分配的扇区上更换驱动器。您应该期望驱动器的保修期限为零。制造商一直很荣幸获得这些驱动器的保修。
迈克尔·汉普顿

Answers:


13

与大多数组件一样,驱动器具有浴缸曲线故障率。他们从一开始就失败很多,到中间的失败率就比较低,然后在达到使用寿命时会失败很多。

正如整个驱动器遵循此曲线一样,磁盘的特定区域也将遵循此曲线。在使用驱动器的开始阶段,您会看到很多扇区重新分配,但是这应该逐渐减少。当驱动器寿命结束时开始出现故障时,它将开始失去越来越多的扇区。

您无需担心6(取决于驱动器-请咨询制造商),但是您需要观察并查看每个新重新分配的频率。如果恶化加速或保持不变,请担心。否则,在初始进入阶段后应该没问题。

-亚当


一小点:驱动器将在MTBF之前长时间失效。我认为您的意思是,随着他们接近预期寿命,他们会失败很多。
Eddie

5
Google难道没有彻底揭穿“浴缸曲线”理论吗?
Insyte,2009年

20

重新阅读Google关于“ 大型磁盘驱动器中的故障趋势 ”这一主题的论文,我想我可以肯定地说亚当的答案不正确。在他们对大量驱动器的分析中,大约9%的驱动器重新分配计数为非零。引人注目的报价是这样的:

首次重新分配后,驱动器在60天内发生故障的可能性是没有重新分配计数的驱动器的14倍以上,因此该参数的临界阈值也是一个。

当处理“离线重新分配”时,它更有趣,“离线重新分配”是在驱动器的后台清理期间发现的重新分配,而不是在实际请求的IO操作期间发现的重新分配。他们的结论是:

首次脱机重新分配后,驱动器在60天内发生故障的可能性是没有脱机重新分配的驱动器的21倍以上;这种效果再次比总重新分配更为剧烈。

从现在开始,我的政策将是安排重新分配计数为非零的驱动器。


有趣的是,我听说过该论文,但可能需要重新阅读。FWIW,我的NAS中6个驱动器中有4个已重新分配扇区。感谢您的回答。
杰里米

3

不同的驱动器可能具有不同的参数。我上次检查的驱动器是一个供应商的1TB企业系列磁盘,其中有2048个保留扇区供重新分配。

您可以估计在具有非零重新分配扇区数的驱动器上的SMART报表中查找的保留扇区数。考虑下面有关故障驱动器的报告。

...
ID# ATTRIBUTE_NAME          VALUE WORST THRESH TYPE      WHEN_FAILED  RAW
...          
  5 Reallocated_Sector_Ct   005   005   036    Pre-fail  FAILING_NOW  1955

1955个扇区已使用了其保留容量的95%。因此,初始容量大约为2057。实际上是2048,其差异是由于舍入误差引起的。

当重新分配的扇区数达到某个阈值时,SMART将驱动器变为故障状态。对于有问题的驱动器,此阈值设置为保留容量的64%。大约有1310个重新映射的扇区。

但是,保留扇区不是连续的。而是将它们分为几个组,每个组用于从磁盘的特定部分重新映射扇区。这样做是为了将数据保留在磁盘上的本地区域。

局限性的缺点是磁盘可能有许多保留扇区。但是一个区域可能已经用完了保留的容量。在这种情况下,行为取决于固件。在一个驱动器上,我们观察到它进入FAILED状态并在不再受保护的零件中发生错误时阻塞。


您如何确定“有2048个保留扇区可供重新分配”?
AJ。

也许2047年是可重新分配扇区的最大数量。我的一个驱动器在eBay上以“新”价格购买时恰好是2047,即0x7FF,也为b11,111,111,111。达到2048将会浪费额外的一点。
davide 2015年

2

如果驱动器支持,则可能需要运行SMART长时间自检。这可能会为您提供有关驱动器状态的更多信息。如果您的NAS无法执行此操作,并且您可以拉出驱动器或关闭NAS几个小时,则可以将硬盘插入另一台计算机中进行长时间的自检。



1

不同的制造商具有不同的“可接受的损失”数字(与显示器和坏像素的想法相同)。请与驱动器制造商联系,以了解其标准。

虽然看起来确实是个坏趋势...


-1

Western Digital以其在可接受的时间内恢复坏扇区而不是冻结放置在RAID中的冻结磁盘(其名称为TLER,http://en.wikipedia.org/wiki/Time-Limited_Error_Recovery)的技术而特别自豪。该时间通常为5..7秒。

正如我在网上发现的那样,有些WD磁盘驱动器具有禁用选项,但是有些人在便宜的绿色WD驱动器上启用了此功能,然后将它们放入RAID。

WDTLER实用程序已从WD支持站点删除,但可以通过Google轻松找到。

PS我仅使用此实用程序来读取状态,并且现在我不使用RAID :)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.