大型驱动器的高故障率?


24

我最近在服务器上部署了5个1TB驱动器(我不会提及它们的品牌,但是这是两个大品牌之一)。最初警告我不要购买大容量驱动器,因为一位朋友告诉我它们的平均无故障时间很低,而我最好购买更多,更小容量的驱动器,因为它们在驱动器性能方面不会“被推到极限”。技术可以处理。

从那以后,五个磁盘中的三个发生了故障。值得庆幸的是,我能够在下一个磁盘出现故障之前更换并重建阵列,但是这让我非常担心。

你怎么看?我只是把它们弄坏了吗?还是比经过测试的磁盘,更新/更高容量的磁盘更有可能发生故障?


2
你为什么不提这个品牌?我想您的批次是7200.11 CUDA,据称它具有早期死亡的趋势。
Dani

实际上,他们是Western Digitals ...
Mark Henderson

仅作记录,我收回了所有这些,并得到了所有新的,并且它们已经运行了两个月,没有任何问题。
马克·亨德森

我也有类似的经历。16个1.5TB驱动器。在最初的4个月中,有4例失败。在接下来的三年中,一个软件失败了。
David Schwartz

Answers:


19

您可能批次不好。出于这个原因,我对于从同一批磁盘部署从磁盘构建的阵列感到不安-它们的使用寿命很可能相似,这使得在出现故障时进行替换可能非常令人兴奋。

这些驱动器并非一定存在设计缺陷,这肯定是以前发生的。但是,如果驱动器确实存在问题,则通常会在Internet上抱怨该驱动器,这与通常会在任何情况下发现的背景噪音相反。


6
+1尝试扩大您的购买空间,从其他商人那里采购或混合品牌以减轻这种情况。
罗布·艾伦,2009年

或者,您可以通过“老化”同时来自同一位置的驱动器来缓解这种情况。针对他们运行几个小时/天的写密集型程序;交错时间以模拟完全不同的老化。我创建了一个名为DriveTest的简单程序,该程序写出伪随机数据,然后将其读回并进行验证,以便“烧入”并同时做一个简单的测试台。不建议将此技巧用于SSD。
rkagerer 2012年

13

除非您拥有大型组织的资源,否则这是一个很难回答的问题。请参阅Google对硬盘故障的研究

在购买大量磁盘时,我将确定每字节成本最低的粗糙磁盘大小,通常比最新磁盘还早一代。这说明他们将提高这一代的可靠性。


1
1.5到2TB是目前的发展趋势,那么1TB是否符合您的标准?他们很便宜。
Mark Ransom

很好的一点。
诺克斯2009年

10

更多的盘子+更多的头部等于更大的失败机会。

拿两个普通的WD硬盘

640GB =两个盘
1TB =三个盘

    WD Black 640GB vs 1TB comparison

Drive Ready Time 11 sec  13
R/W Power watts  8.3     8.4
Idle Power watts 7.7     7.8
Standby watts    1       1
Max shock        300g    250g
Performance seek 29      33
Quiet seek       26      29

额外的盘子=更多的噪音,更多的功率使用,更多的热量,更慢的驱动器准备时间,更容易受到电击损坏和更多的振动。

如果他们只用一个盘片就进行相同的驱动器设计,那么它的规格会更好。在这种情况下,它们是消费级驱动器,但它们是具有两倍缓存和5年保修的高端消费级驱动器。如果您仔细检查有关任何品牌或样式的传统硬盘驱动器(旋转盘片)的文档,将会看到类似的数学公式。纯粹是物理问题,更多的磁盘会使驱动器的可靠性降低。

杰夫·亨格斯巴赫(Jeff Hengesbach)说的也是对的

“大”驱动器的主要问题是发生故障时的重建时间。驱动器越大,重建时间越长,额外的驱动器故障和阵列潜在损失的窗口就越大。对于“大”驱动器,可用性的业务价值应确定可接受的风险(阵列丢失)级别,这将驱动RAID级别选择和驱动器数量(更多驱动器=发生驱动器故障的机会更多)。

加入少量的格雷姆·佩罗(Graeme Perrow)

具有五千万个扇区的驱动器出现不良扇区的机会是具有五百万个扇区的驱动器的十倍。我假设大型驱动器和小型驱动器之间的故障率相同,这可能不是一个很好的假设

更多的盘子=坏的
更多的存储空间是混合的。优点和缺点很多。
更多的部门确实有更多的机会出错。规模不一定是线性的,但绝对是一个因素。

除非您需要的空间超过可靠性,否则我建议您坚持使用单盘或双盘驱动器。需要进行研究,在某些情况下还需要运气才能知道订购驱动器时会得到什么,因为一些制造商不仅避免发布他们实际上可能会销售相同零件号下多个驱动器的盘片数量。

以WD3200AAKS为例,有一个单盘320GB版本和一个双盘320GB版本(160GB x 2)。最重要的是,使用了多个标签和驱动器外壳,因此您不容易查看驱动器并知道内部是哪个磁盘。唯一知道的方法是在线搜索,以了解WD3200AAKS-00B3A0和WD3200AAKS-75VYA0会告诉您哪个是单碟,但没有零售商会告诉您将获得哪个。


1
哇。那是一些深入的东西!谢谢!在此之前,我什至没有考虑过活动部件(拼盘)的数量。
马克·亨德森

3

我相信高于正常水平的故障率表明存在任何新技术。一直有人告诉我,永远不要购买汽车的第一个模型年,等到他们解决了这些问题。我想说同样的事情可能适用于许多其他事情,包括硬盘驱动器。


1
我可以证明整个汽车类比(汽车类比永远不会误入歧途,对吗?)。我承认我很着急,根本没有进行任何适当的研究,现在我要付出代价!
Mark Henderson

3

我不确定说“大”磁盘是否具有更高的MTBF是不公平的。我有一个拥有750GB驱动器的大型系统,在过去2年多的时间里,没有一个失败(2年前750是“大”)。但是我也知道一个大名鼎鼎的系统,该系统是在250GB容量很大时建立的,该阵列已经跌落了好几次。MTBF辩论是一场神圣的战争。

“大”驱动器的主要问题是发生故障时的重建时间。驱动器越大,重建时间越长,额外的驱动器故障和阵列潜在损失的窗口就越大。对于“大”驱动器,可用性的业务价值应确定可接受的风险(阵列丢失)级别,这将驱动RAID级别选择和驱动器数量(更多驱动器=发生驱动器故障的机会更多)。

在过去的几年中,企业级SATA / RAID一直在发展。如果他们知道这将是主要的支持问题或客户失望的消息,那么我不认为这些大公司会提供。我很想知道您的可靠性,因为您已经替换了一些原始批次。


1

它们是否都在同一台计算机或磁盘控制器上?您确实说过必须重建阵列。如果是这种情况,则可能是控制器,电源或内存出现故障。如果没有,我还会猜到一批故障的驱动器。另外,与该特定控制器一起使用的任何特定驱动器都可能存在兼容性问题。

另外,我不知道人们会说更大的磁盘具有更高的MTBF怎么计算。假设您有2x250 GB和1x500 GB磁盘。也许这很幼稚,但难道拥有两倍容量的驱动器可能会出现更多数据失败吗?我想我不知道MTBF是否包含任何误读或误写,或者这是否意味着磁盘机械损坏。有谁知道硬盘是否有严格的行业标准和MTBF定义?


1

我将检查以下几件事:1)驱动器上的序列号是否很接近?如果是这样,则您的批次可能有问题2)服务器所处的环境如何?您最近是否有其他硬件出现故障的问题?3)这些驱动器是否恰好是希捷梭子鱼驱动器?这些驱动器有问题。请参阅此计算机世界的文章。4)这些驱动器是否作为系统的一部分出现?还是你自己买的?如果您购买了OEM驱动器,则无法确保在购买驱动器之前请小心处理它们。

我个人对硬盘有好运。我只有两个驱动器发生故障。这些故障中只有一个是我实际使用的驱动器。但是,在我周围,我已经看到很多人在硬盘上丢失数据。


嗯,是的,它们都非常接近,但是它们是WD的,而不是Seagates,是的,它们是OEM驱动器……我在那儿没考虑过的几件事……
Mark Henderson

1

大型驱动器的较高故障率可能只是驱动器大小的函数。具有五千万个扇区的驱动器出现不良扇区的机会是具有五百万个扇区的驱动器的十倍。我假设大型驱动器和小型驱动器之间的故障率是相同的,这可能不是一个很好的假设-正如其他人所说,TB级驱动器仍是相对较新的事实,它们的故障率可能更高。首先。

就您而言,这听起来像是一批不良的驱动器。


1

如果您在同一时间从同一地点购买了所有驱动器,则可能所有这些驱动器都来自同一批次。

通常将RAID阵列放在一起时,我建议您混合使用一些驱动器,即混合使用制造商或至少混合使用来自不同供应商的驱动器(以降低所有驱动器来自一批不良驱动器的风险)。

我会提出的另一项建议是,如果可能的话,使用较小的驱动器(即,您有用于驱动器和控制器端口的物理空间,可将它们挂起),因此,代替RAID 1卷或两个1Tb驱动器具有四个500Gb单元的RAID 10。这样,当驱动器发生故障时,您只需要重建一个较小的阵列(该阵列是较大的阵列的一部分),而不是重建整个阵列(减少阵列未完成的时间),并且还可以提供更多的冗余(在“两个驱动器一次出现故障”的六个场景中的四个场景中,四个驱动器RAID10阵列将运行)。如果RAID控制器/软件支持,也可以将较小的R5阵列合并到R50阵列中,以进行相同的操作。

也许我过于偏执,但是我会警惕将1Tb的数据信任到一个驱动器,即使该驱动器是冗余阵列的一部分也是如此。

显然,有一些物理约束在起作用,这可能会使该技术对您不切实际,功率消耗也受到限制,因此YMMV。作为“例如”当一个或多个阵列是不实际的:我宁愿有四个驱动器作为R10在这里我们的服务器之一到位在R1阵列的更大的驱动器,但它并没有物理上有房,购买/构建一个外部阵列超出预算,并且由于数据保护的要求,由于数据必须与所有其他数据在物理上分开,因此我们无法在现有阵列上使用空间。


1

有人对此较大的驱动器问题进行了非常详细的研究。即使驱动器尺寸增加,它也必须使误码率保持恒定,再加上重建大型驱动器所花费的时间也更长。两者相结合,在重建过程中将第二次失败置于现实世界中。我会在RAID阵列上使用500 GB或更小的驱动器。


1

始终将较小容量的硬盘驱动器用于生产。从未检查过其背后的物理原理,但是较小的磁盘往往很少出现故障。这就是每个人总是告诉我的。


0

您是否创建了一个阵列,其中所有磁盘均来自同一批次,且所有磁盘均来自同一供应商?有人告诉我这是一件坏事...


0

考虑RAID-6。在RAID-5重建过程中发生硬读取错误的可能性非常大。或带有ZFS的RAID-Z。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.