什么算作“大型” RAID 5阵列?


11

我办公室中最近出现的Buffalo TeraStation NAS问题使我对Raid 5进行了调查。

我发现了几篇不同的文章,谈论在大型阵列或大型磁盘中使用raid 5不合适

这是一篇示例文章,讨论了使用大型使用者驱动器重建阵列时遇到的问题。

我正在尝试算出什么是“大”?

我们这里的NAS是4硬盘Raid 5设置,每个硬盘为1 TB。驱动器发生故障并已被更换,该阵列当前正在重建。

就重建过程而言,此设置是否构成很大?

此设置对于日常使用的可靠性如何?


2
给定您通常的系统负载,控制器期望重建花费多长时间?硬盘的平均故障间隔时间是多少?一个有两个数字,就知道RAID重建期间可能会发生第二次灾难性故障。请记住,HDD在重建过程中承受的压力最大,因此上述结果将低估两次故障的可能性。
MadHatter 2014年

3
顺便说一句,您知道RAID不是备份,对吗?
cjc 2014年

5
@cjc,您是否在SF上的每个RAID问题中都添加了智慧,还是有关此问题的某些内容使您认为OP认为RAI​​D是备份?
BlueCompute 2014年

是的,我知道。所有这些都已备份,我只是想恢复所有麻烦,因为raid阵列无法正确修复自身。
罗布

Answers:


18

设计磁盘阵列的可靠性:

  1. 找到您的驱动器的URE率(制造商不喜欢谈论他们的驱动器发生故障,因此您可能必须进行挖掘才能找到它。它应该是1/10 ^ X,其中X通常在12-18之间)。
  2. 确定您的存储需求可接受的风险率†。通常,这是<0.5%的失败机会,但在“临时”存储中可能是百分之几,对于关键数据可能是<0.1。
  3. 1 - ( 1 - [Drive Size] x [URE Rate]) ^ [Data Drives‡] = [Risk]
    对于具有多个奇偶校验磁盘的阵列或具有在镜像中具有一对以上磁盘的镜像的1阵列,将“ Drives in Array”中的“ Drives in Array” 更改为具有奇偶校验/镜像的磁盘数。

因此,我在阵列中有一组四个1TB WD Green驱动器。他们的URE率为1/10 ^ 14。我将它们用作临时存储。1 - (1 - 1TB x 1/10^14byte) ^ 3=> 3.3%一个驱动器死后,重建阵列失败的风险。这些对于存储我的垃圾非常有用,但是我并没有在其中放置关键数据。

†确定可接受的故障是一个漫长而复杂的过程。可以总结为Budget = Risk * Cost。因此,如果一次故障要花费100美元,并且有10%的机会发生,那么您应该有10美元的预算来防止这种情况。这极大地简化了确定风险,各种故障的成本以及潜在预防技术的性质的任务,但是您可以理解。 [Data Drives] = [Total Drives] - [Parity Drives]。两个磁盘镜像(RAID1)和RAID5具有1个奇偶校验驱动器。三个磁盘镜像(RAID1)和RAID6具有2个奇偶校验驱动器。可能有更多具有RAID1和/或自定义方案的奇偶校验驱动器,但不典型。


但是,此统计方程式带有以下警告:

  • 该URE速率是标称的速率,通常在大多数驱动器下线时会更好。您可能会很幸运,购买的驱动器比广告宣传的要好几个数量级。同样,您可能会死于婴儿死亡率。
  • 一些生产线的运行不良(运行中的许多磁盘同时发生故障),因此从不同制造批次中获取磁盘有助于分散同时发生故障的可能性。
  • 旧磁盘更容易在重建压力下死亡。
  • 环境因素造成的损失:
    • 通常热循环的磁盘更容易死机(例如,定期打开/关闭它们的电源)。
    • 振动会引起各种问题,请参阅YouTube上有关IT部门对磁盘阵列大吼大叫的视频。
  • “存在三种谎言:谎言,该死的谎言和统计数据”-本杰明·迪斯雷利(Benjamin Disraeli)

我从设备中取出/取出的驱动器是Samsung HD103SI 1TB驱动器。我相信其他三个剩余驱动器是相同的。替换驱动器来自其他制造商,我没有详细的信息。
罗布

似乎该驱动器的速率为:1/10 ^ 15据:-comx-computers.co.za/HD103SI-specifications-28474.htm
Rob

1
我只是纠正了方程式,这个例子是正确的,现在它们都是正确的。您的数组将为1-(1-1099511627776*0.000000000000001)^3=> 0.00329。您的外部^3应该有一个支架,里面应该有支架;在那1/10 ^ 15事物中应该再有一个零。
克里斯S

2
1TB的驱动器将是1000000000000字节,因此根据您的URE率,其计算结果会略小于3%| 0.3%。
user9517 2014年

1
@IanRingrose这在统计上是有效的。我已经解决了您的具体问题。除了已经说明的内容之外,您还有其他要添加的内容吗?
克里斯S

9

这篇文章存在的原因是要引起人们对HDD上不可恢复的误码率的关注。特别是便宜的“家用PC”磁盘。它们的出厂规格通常为1/10 ^ 14。这大约是12.5TB的数据,如果您要使用2TB磁盘进行RAID-5,则击中速度很快。

这意味着您应该:

  • 使用较小的RAID组,并接受更高的浪费空间。
  • 使用RAID-6并接受其他写入惩罚。(比RAID5高50%)
  • 购买更昂贵的磁盘-“服务器级别”的UBER规格为1/10 ^ 16,这意味着一个争论点。(1.2PB优于12.5TB)

我通常会建议RAID-6是一般的转发方式,但这会降低性能。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.