单独购买还是批量购买RAID磁盘是更好的做法?


96

这听起来像是一个奇怪的问题,但却引起了我与一些同事的激烈讨论。考虑由八个或十二个磁盘组成的中等大小的RAID阵列。购买第一批磁盘或购买替换磁盘以扩大阵列或刷新硬件时,可以采用两种广泛的方法:

  1. 从一个供应商处以一个顺序购买所有驱动器,然后收到一个装有所有磁盘的大盒子。
  2. 从各种供应商处订购一个磁盘,和/或(几天或几周内)摊开一个磁盘的几个订单。

显然有一些中间立场,但这是主要的对立心态。我真的很好奇,哪种方法在降低阵列灾难性故障的风险方面更明智。(让我们定义为“ 25%的磁盘在一个时间窗口内发生故障,该时间窗口等于重新刷新一次阵列所需的时间。”)逻辑是,如果所有磁盘都来自同一位置,则它们可能都具有相同的状态潜在的缺陷等待罢工。如果您愿意,可以使用相同的定时炸弹,并在时钟上进行相同的初始倒计时。

我为每种方法收集了两个较常见的利弊,但其中一些感觉像是猜想和直觉,而不是基于证据的硬性数据。

一次购买全部,专业

  • 在研究/订购阶段花费的时间更少。
  • 如果供应商收费,则将运输成本降至最低。
  • 磁盘几乎可以保证具有相同的固件版本和相同的操作特性(温度,振动等)。
  • 价格上涨/库存短缺不太可能使项目中途停顿。
  • 需要安装每个下一个磁盘。
  • 序列号都是预先已知的,可以按增加序列号的顺序在磁盘盒中安装磁盘。似乎过于挑剔,但有些人似乎对此很重视。(我猜想他们的管理界面会按序列号而不是硬件端口顺序对磁盘进行排序...?)

立即购买全部,缺点

  • 所有磁盘(可能)都来自同一工厂,同时使用相同的材​​料制造。它们被存储在相同的环境中,并且在运输过程中遭受相同的潜在滥用。一个人可能存在的任何缺陷或损坏。
  • 如果将驱动器一次更换到一个现有阵列中,并且每个新磁盘都需要分别重新安装银盘,则可能要花几周的时间才能安装订单中的最后一个磁盘,并且发现有故障。在此期间,与供应商的退货/更换窗口可能会过期。
  • 无法利用项目期间可能发生的近期价格下跌。

专业人士单独购买

  • 如果一个磁盘发生故障,则与其他任何磁盘共享很少的制造/传输历史记录。如果故障是由于制造或运输过程中的某些原因引起的,则根本原因可能没有发生在任何其他磁盘上。
  • 如果磁盘在到达时已死或在使用的最初几个小时内发生故障,则将在发货后不久检测到,并且退货过程可能会更加顺利。

缺点,单独购买

  • 需要大量时间来找到价格合理的足够的供应商。解决订单跟踪,交货失败,物品退回损坏和其他问题可能很耗时。
  • 潜在的更高的运输成本。
  • 存在一个非常实际的可能性,即需要一个新磁盘,但没有一个可用的新磁盘,从而使项目停滞。
  • 想象中的好处。无论供应商或购买日期如何,所有磁盘都来自同一地点,并且实际上是相同的。质量缺陷将检测到制造缺陷,不合格的磁盘将不会被出售。运输损坏必须非常严重(肉眼可以清楚地看到),以致损坏的驱动器在拆箱时就很明显。

如果仅按项目要点计算,则“批量购买”显然很容易获胜。但是,有些利弊很弱,有些利弊却很强。许多要点仅说明了其他一些的逻辑逆。其中有些事情可能是荒谬的迷信。但是,如果迷信在维护阵列完整性方面做得更好,我想我会乐于接受。

哪一组最明智?

更新:我有与此讨论相关的数据。我个人构建的最后一个阵列(大约四年前)有八个磁盘。我从一个供应商处订购,但将购买分成两个订单,每个订单四个磁盘,相隔一个月左右。阵列的一个磁盘在运行的最初几个小时内发生故障。它是从第一批开始的,该订单的退货窗口在将所有商品旋转起来时已经关闭。

四年后,七个原始磁盘加上一个替换磁盘仍在无错误运行。(敲木头。)


6
向我+1提出问题,因为我很想亲自了解一下。我肯定已经看到大文件服务器的HDD几乎同时出现在浴缸曲线尽头的现象,但是通常认可这种服务器的供应商的数量非常少,因此“购买很多”的方法相当不错。硬。我期待看到包含真实数据的答案。
MadHatter

2
回覆。您的更新:这是一个数据点。对数千个磁盘重复此操作以获取任何有用的指标。这很难做到,特别是在磁盘产品周期较短的情况下,这会导致缺乏此类数据。
斯文

1
我似乎回想起前段时间在meta上达成的共识,即最佳实践问题是主题,只要它们不只是产生大量的轶事即可。我希望这个问题能有很好的答案,我认为我们应该给它一个机会。
MadHatter

3
@Sven,谢谢,你是一个绅士;希望如此。对于任何潜在的回答者:请提供数据,而不是轶事
MadHatter

2
我用突袭来管理很多机器。 所有磁盘最终都会发生故障,因此手头上有足够的备用磁盘,您可以在最早通知时交换它们,这很可能是预故障而不是等待完全故障。
Criggie '17

Answers:


56

实际上,从企业供应商(HPE,Dell等)购买的人不必为此担心

这些供应商提供的驱动器已经散布在多个制造商的同一部件号下。

特定SKU下的HP磁盘可以是HGST或Seagate或Western Digital。

相同的HP部件号,制造商,批号和固件的变化 在此处输入图片说明

但是,您不应该试图超越/胜过批次失败的可能性。欢迎您尝试一下是否可以让您省心,但这可能不值得。

群集,复制和固态备份等良好实践是批量故障的真正保护。添加冷热备件。密切监视您的系统。利用ZFS等智能文件系统:)

请记住,硬盘故障并不总是机械的。


13
但是,存储/运输方面仍在起作用。如果HP或FedEx储藏室中的某个人丢了一个装满磁盘的盒子,则可能会影响整个收到的批次。
smitelli '17

6
@smitelli好的。备份,RAID,复制,DR,备件。所有驱动器一次发生故障的可能性很小,因此这不是大多数人都应该准备遇到的问题。
ewwhite

3
需要注意的是,我从亚马逊购买了5个用于SW RAID盒的消费级归档驱动器。第一个在48个月后失败。第二个53个月。第三个和第四个在第55个月的两周内失败,而最后一个在第57个月失败。幸运的是,我正在使用三向冗余,但仍然...并非我所期望的。我不知道这些序列是否是顺序的,但是驱动器本身基本相同。
MooseBoys

3
@ewwhite是的,但是如果您一次性订购10个相同的SKU,则与每月订购1个相比,它们来自多个供应商的可能性较小。这就是我要说的重点。
卡塔尔

2
这个答案似乎有点自以为是,似乎也没有给出任何关于为什么它可能是真的的论据……您是否与所有订购Dell的人交谈过?批处理失败的智商是什么?人们按照您所假设的去做实际上是件好事吗?
AnoE

43

为了尊重ewwhite的回答,某些系统管理员批量执行订购。我本人永远不会单独订购驱动器,但我最后以这种能力工作的标准操作是批量订购驱动器。对于一台十二驱动器的计算机,SOP要求将驱动器分为三批,从而为该计算机提供三层冗余配置文件。

但是,我咨询过的其他小型服装遵循了不同的协议,其中一些与批处理无关,而另一些则将批处理分成两个或四个阵列。简短的答案是根据您需要达到的服务水平做适当的事情。

旁注:我工作的最后一个地方肯定是做正确的事。应用存储机器决定在整批驱动器上发生故障,并且我们发现该特定批处理都具有相同的故障。如果我们不遵循批处理协议,我们将遭受灾难性的数据丢失。


7
我会考虑在前面做这个旁注!
2009年

38

花费大量时间来处理快要消失的RAID阵列和困难的驱动器的人的诚实回答:如果可以避免,请不要将同一批驱动器中的所有驱动器都包含在其中。

我的经验仅适用于旋转磁盘,在批量订购时,SSD有其自身的问题和优点。

最好的处理方式主要取决于要使用的阵列的大小,如果要使用6个具有2个驱动器冗余的驱动器阵列,则可以安全地从3个制造商那里购买类似的驱动器并拆分阵列像那样。

如果您使用的是奇怪的驱动器,或者正在使用无法轻易分区的阵列,则可以尝试其他方法,例如从其他供应商处购买相同的驱动器,或者如果要批量购买,则可以浏览一下并尝试根据一起制造的可能性来分离驱动器。

如果您正在使用合适的基础技术运行足够小的阵列,则甚至值得您花时间从异构磁盘供应源逐步构建它。从您可以使用的最少数量的驱动器开始,然后在一个月或两个月后或在填充系统时购买下一个电源。这也使您可以了解所选择的特定模型可能存在的任何问题。

该建议背后的原因是两个驱动器的古怪组合。

  1. 当您有许多来源相似的驱动器时,MTBF明显损坏。在统计数据中,我们称其为采样偏差,因为样本中的相似性,平均效果往往不太有用。如果批次甚至设计本身存在故障,并且发生的频率超出您的预期,那么来自该批次的驱动器将比MTBF建议的更早发生故障。

    如果驱动器散布,您可能会得到[MTF]的[50%,90%,120%,200%],但是如果所有驱动器都来自那50%的批次,那么您的手将一团糟。

  2. RAID阵列重组会杀死磁盘。不完全是。如果您遇到驱动器故障并重建阵列,它将在其他驱动器上扫描数据时给它们增加额外的负载。如果您的驱动器快要发生故障,那么重建很可能会将其取出,或者它可能已经具有一个故障位置,而您最近就没有意识到该故障位置,因为该部分最近没有被读取。

    如果同一批驱动器中有很多驱动器,则发生此类级联故障的机会要比不同驱动器发生的机会高得多。您可以通过定期巡逻扫描,清理,重新同步来减轻这种情况,无论您对所使用的阵列类型有何建议的做法,但这样做的缺点是会影响性能,并且可能需要数小时才能完成。

对于驱动器寿命有多大变化的某些情况,Backblaze会定期发布驱动器故障统计报告...我与该公司没有任何关系,但他们应该知道他们在谈论驱动器可靠性方面的问题。例如https://www.backblaze.com/blog/hard-drive-failure-rates-q1-2017/ ...您的样本集可能会更小,因此外围数据可能会扰乱您自己的体验,但仍然一个很好的参考。


2
这应该是正确的答案。具有类似磁盘(来自相同固件/批生产,或一起购买并在某些时候处理不当)的磁盘发生灾难性故障的风险要高得多
Olivier Dulac

@OlivierDulac,如果磁盘也发生了灾难性的设计故障,您的生活就会非常痛苦。300GB / 600GB / 900GB 2.5英寸WD Raptor系列驱动器具有/必须要相信的故障率
。– Kaithar

引用Backblaze ...非常好。
O. Jones

9

几年前,我不得不为一个客户考虑这个问题。我将实践经验和研究相结合,以将建议备份到多源。

暂时暂不考虑利弊,以及ewwhite的出色回答,谨慎起见,建议如果您自己购买驱动器,则可以采用多源方式。快速浏览一下Wikipedia关于RAID弱点的讨论,可以找到两个有趣的参考。

第一个参考文献是ACM论文RAID:高性能,可靠的辅助存储(Chen,Lee,Gibson,Katz和Patterson。ACMComputing Surveys。26:145-185)。在3.4.4节中,作者指出,硬件故障并非总是统计上独立的事件,并给出了原因。在我撰写此答案时,该论文可在线获得。第19-22页讨论了可靠性(http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.41.3889)。

第二个参考是现实世界中的磁盘故障:1,000,000小时的MTTF对您意味着什么?(Schroeder,Gibson。第5届USENIX文件和存储技术会议。)作者提供了统计数据来支持这样的断言,即驱动器故障可能会以比独立事件的预期速度更高的速度及时聚集。在我撰写此答案时,也可以在线获取本文(https://www.usenix.org/legacy/events/fast07/tech/schroeder/schroeder_html/index.html)。

由于大型磁盘环境中的相关磁盘故障,戴尔早在2012年就明确建议不使用RAID 5。由于类似的原因,RAID 6预计将在2019年左右变得不可靠(ZDNet文章标题为“ why-raid-6-stops-working-in-2019”:http//www.zdnet.com/article/why-raid-6 -stops-working-in-2019 /)。尽管这两者的关键因素是磁盘大小和重建时间,但建议使用较小的驱动器大小和多源作为RAID 5问题的缓解措施。

是的,如果可以的话,将驱动器多源化;如果您是按照ewwhite的回答中所述从企业供应商那里购买的,则这可能是透明地发生在您身上的。但是...我的客户从一家企业供应商那里购买了16个2TB驱动器。他们恰好是同一家制造商的,似乎是在同一时间制造的。在配置RAID01阵列的两周内,有两个驱动器发生故障。因此,在获得驱动器时检查它们。(您已经检查了它们,对吧?)


我真的不理解他们关于RAID6因存储容量增加而消失的说法。任何RAID阵列都需要良好的维护才能正常运行。我们有运行RAID6的大型阵列,并且在重建期间从未遇到过会导致数据丢失的URE。就像每个MFG所建议的那样,只需执行计划的体积检查,就可以了。
Brian D.

4

单独订购驱动器的另一个潜在缺点是包装和搬运。

硬盘几乎从未以零售包装的形式提供。如果您一次购买它们,几乎可以肯定,卖方会重新包装它们。我发现这种重新包装具有很大的可变性。有时,您会得到一个带有大量填充物的漂亮包装盒,但有时则几乎没有任何填充物。

较小的盒子也更容易被运输工具扔掉,而没有明显的外部损坏。


2

如果要缓解“不良批次”情况,这意味着特定购买批次中的每个驱动器都可能/将在几乎同一时间发生故障,那么考虑阵列的大小以及所使用的RAID级别也很重要。

如果您考虑进行多个订单,则没有适用于所有订单的设定标准。推荐2到4个购买层的人们应该问自己,如果一整层驱动器发生故障,该阵列仍可以在线吗?因此,对于像1/5/10/50这样的冗余RAID级别,您必须一次购买驱动器1。对于RAID6,您可以一次购买2个。

无论您如何购买定期备份的驱动器,以及为阵列大小和RAID类型购买足够的热/冷备件,我都建议。


2

我总是买二手货。我跟踪的订单几乎总是相同的设备型号,并且至少可以减轻对“不良批次”的担忧。网上有如此多的待售硬件,我很难证明购买新驱动器(或其他任何事情),除非它用于关键任务硬件(而且我们所有的备用硬件仍在翻新!)

+ PRO:具有竞争力的在线定价以及不断变化的业务环境中不断涌入的硬件意味着,无需花费任何努力就可以为工作环境带来50-80%的零售折扣。

+ PRO:低廉的价格可释放预算以过度购买,并保持大量的备用硬件库存。

+ PRO:卖家关系我有一些在线卖家,他们对翻新/二手硬件已经相当可观的折扣得到些微折扣。除非您大量购买或与他们一起拥有SLA,否则通常无法通过Monoprice获得该服务。另外,尤其是对于硬盘驱动器,只需确保立即对它们进行测试即可。我从未遇到卖方不退款或不更换DOA硬件的问题(除非这是我未能发现的骗局)。

-CON:保修,合法性问题保修基于设备的生产日期,您还需要注意网上的行规,这些行规试图向您出售重新品牌,克隆等。

-CON:测试需要考虑测试开销。无论如何,您也应该测试新硬件,因此不确定是否适用。

-CON:寿命难以判断;磁盘故障几率更高。

注意:如果是客户端构建,并且他们没有明确要求翻新/使用,则总是使用闪亮/新的!


完全。我购买了大量的经租赁和再制造的HP磁盘,原因是:价格便宜。另外,HP服务器保修通常涵盖机箱内部的任何内容,因此,只要它是有效的一部分,那就很好。
ewwhite'9

1

通过使用来自不同批次且理想情况下为制造商的硬盘驱动器,可以获得更高的可靠性。否则它们可能无法及时关闭。@Eliodorus的出色答案足以说明这一点。

当然,谁洗牌都没关系。如果您的提供者确认已为您做到这一点,则无需担心。但是,对甚至不同的提供者进行取证,然后得出结论,如果没有直接告诉您,有人会替您这样做似乎是不合理的。提供者通常不会懒惰地宣传他们为提高驱动器可靠性而采取的各种措施。


1

实际上,这取决于廉价光盘冗余阵列(Raid)级别。在Raid 2、3、4、5和6中,确实有几个不同批次的驱动器确实有帮助,但这并不是决定性的:一个已经固有地丧失了使用这些级别的可靠性和性能。

现在,对于通常明智的选择,是使用Raid 1(镜像)或1 + 0(在镜像上分割),在每个镜像的不同侧面(每个Raid 1阵列)安装不同的驱动器确实非常有用。恢复过程中没有使镜像失败。另外,应该有热备件以最大程度地减少恢复时间。

有关更多信息,请访问久负盛名的高级DBA的Oak table网络,访问内容丰富的《与任何Raid'F'2(Baarf)战斗》网站。 维基百科也很好地总结了这个问题。


这似乎只是意见。如果您有资源,请引用并链接到它们。
MadHatter

好吧,实际上我提到了一个消息来源。而且我认为,这比逻辑意见更具逻辑性(针对条带化和校验和的镜像性质)。
lfd

7
您未链接或引用的来源;期望其他人在您的源网站上搜索以搜索整个网站以获取支持数据并不能令人信服。至于它的逻辑的问题,在PRECIS我想我们很清楚,handwavy 是很有道理的回答此问题的讨论是不会被广泛关注。
MadHatter


4
@lfd链接到网站时,虽然使用“逻辑”来解释其位置,但未提供数据(我可以快速浏览一下)。“逻辑”的问题在于,在这种情况下,它只是理论的另一个名称。毫无疑问,未经检验的理论存在的问题是显而易见的。请注意,由专家支持的未经测试的理论仍然与一般的未经测试的理论存在相同的问题。
user2460798

-1

据我所知,工厂中磁盘存储的质量检查相当高,而且我个人不会因为制造原因而担心大量硬件故障。

如果我有点偏执,我只会从两个我不知道共享工厂的不同制造商那里,通过同一卖方购买存储。

存储如此便宜,以至于公司不批量购买是没有意义的,而且在公司内部您也将在几年后注销存储,因此投资额并不是那么大。由于花费的时间,从各个供应商处购买的时间可能会花费更多。

如果您仍然担心大量磁盘故障,请购买所需数量以外的东西。如果您知道需要12个磁盘,则可以购买5到7个备用磁盘。那将是每TB 5到7乘以48的价格,并且我们仍然可以便宜一些,而不会导致系统不稳定或不安全,因为如果批量购买或二手磁盘打折(为什么是安全的)。与我们谈论重新银色/重新初始化阵列相比,现在我当然无法知道您的存储解决方案有多大,但是如果您花数周时间执行此任务,那么我可能会考虑重新配置组织存储,因为听起来(对我而言)更多是作为一种错误配置,而不是其他任何一种方式。

如果我们真的变得偏执,那么,根据您的组织对存储故障的敏感程度,可以获得您正在运行的存储解决方案的两倍,这可能会便宜一些,这不仅是财富500强公司的选择。

我们还可以讨论将现在和现在不需要的数据卸载到我们首先加密的“云”供应商那里,例如(随机示例)多年的历史财务数据。这将从我们自己的存储中消除存储需求,这将使我们在财务或功能上得到解放。

根据您的身份,所处的位置和所从事的工作,他们将为您提供最佳解决方案。


1
如果比-1,您应该有礼貌地说明原因。也许您对事实过敏。
克里斯蒂安·马蒂亚斯·安巴克
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.