我想比较使用消费者(URE / bit = 1e-14)或企业(URE / bit = 1e-15)驱动器的不同RAID系统的可靠性。具有重建成功概率的公式很简单(忽略机械问题,我将在以后考虑)。
error_probability = 1-(1-per_bit_error_rate)^ bit_read
要记住的重要一点是,这是至少获得一个URE的概率,而不一定只有一个。
假设我们想要6 TB的可用空间。我们可以通过以下方式获得它:
RAID1,每个磁盘具有1 + 1个6 TB的磁盘。在重建期间,我们回读了1个6TB的磁盘,风险是:消费者使用1-(1-1e-14)^(6e12 * 8)= 38%或企业驱动器为4.7%。
RAID10,带有2 + 2个磁盘,每个磁盘3 TB。在重建期间,我们仅回读1个3TB的磁盘(该磁盘与发生故障的磁盘配对!),并且风险更低:消费者使用1-(1-1e-14)^(3e12 * 8)= 21%或使用2.4%企业驱动器。
RAID5 / RAID Z1,每个磁盘具有2 + 1个3TB的磁盘。在重建期间,我们回读了2个每个3TB的磁盘,风险是:对于消费者用磁盘或4.7%或企业驱动器,1-(1-1e-14)^(2 * 3e12 * 8)= 38%。
RAID5 / RAID Z1,每个磁盘具有3 + 1个2 TB的磁盘(通常由Synology等SOHO产品的用户使用)。在重建过程中,我们回读了3个每个2TB的磁盘,风险是:对于消费者或4.7%或企业驱动器,1-(1-1e-14)^(3 * 2e12 * 8)= 38%。
计算单个磁盘容限的误差很容易,而更困难的是计算系统容忍多个磁盘故障(RAID6 / Z2,RAIDZ3)的概率。
如果仅第一个磁盘用于重建,并且从第二个磁盘再次读取(如果情况为或URE),则错误概率为平方根以上的计算概率(消费者RAID5 2 + 1为14.5%,消费者RAID5为4.5% RAID1 1 + 2)。但是,我假设(至少在具有完整校验和的ZFS中!)第二个奇偶校验/可用磁盘仅在需要的地方读取,这意味着只需要很少的扇区:第一个磁盘中可能有多少个URE?不是很多,否则单磁盘容差系统的错误概率将比我计算的还要猛增。
如果我是正确的话,第二个奇偶校验磁盘实际上会将风险降低到极低的值。
除了问题,重要的是要记住,制造商出于市场原因会增加消费者级驱动器的URE概率(出售更多企业级驱动器),因此,甚至消费者级HDD都有望达到1E-15 URE / bit读取。
一些数据:http : //www.high-rely.com/hr_66/blog/why-raid-5-stops-working-in-2009-not/
因此,我在括号(企业驱动器)中提供的值实际上也适用于消费者驱动器。真正的企业级驱动器具有更高的可靠性(URE / bit = 1e-16)。
关于机械故障的可能性,它们与磁盘数量成正比,与重建所需的时间成正比。