平均两次故障之间的时间可能很难解释,但是如果您有一些硬数据,则可以使用大量的统计方法。
麻烦的是,没有人再报告他们的MTBF编号。(无论如何,除了硬盘驱动器制造商。)
在哪里你去寻找组件和服务器的MTBF的数据?
平均两次故障之间的时间可能很难解释,但是如果您有一些硬数据,则可以使用大量的统计方法。
麻烦的是,没有人再报告他们的MTBF编号。(无论如何,除了硬盘驱动器制造商。)
在哪里你去寻找组件和服务器的MTBF的数据?
Answers:
为什么MTBF没关系
两次故障之间的平均时间不如不可纠正的错误率重要。MTBF处理零件的完全故障,读取驱动器。但是,当单个错误位会引起RAID 5紧急情况并使热备份发挥作用时,该数字就没有意义。
尽管近年来用于专业级和消费者级驱动器的MTBF增长了一个数量级,但不可纠正的错误率保持相对恒定。估计此速率为10 ^ 14位,因此对于消费类SATA驱动器,源每12 TB读取一个位。
为什么您应该在RAID 5阵列上放松睡眠
因此,这仅是新品牌2Tb驱动器的6次通过。读取12Tb数据需要多长时间?该驱动器的时间比MTBF少得多。
http://storagemojo.com/2008/02/18/latent-sector-errors-in-disk-drives/
更令人担忧的是,在由如此大的驱动器组成的RAID 5阵列上可能会出现两次读取失败的情况。对于具有7个1Tb驱动器的RAID 5阵列,在进行RAID重建时每秒可能发生读取故障的可能性为50%。
人们认为MTBF数据不适用于复杂的系统,真是可惜。真正的问题(afaik)是制造商没有其硬件模块的MTBF数据。这些数字应保留所有权利。戴尔说:“戴尔不再列出其服务器的特定MTBF。” 实际上是残暴的!他们可能还说:“我们的产品确实不够可靠,无法用于需要MTBF数字的地方”。
可靠性工程师(或戴着RE帽子的家伙)应该限制可用性研究的范围。这通常仅限于硬件模块。
至于构成故障的分类……这就是我们执行FMECA分析的原因。
当然系统是复杂的,并且故障模式包括软件故障,但这通常不是研究范围。我们需要硬件MTBF数字。请您的推销员提供此信息。将其提供给您是他们的技术责任。如果他们拒绝或避开,请到具有电信级服务器且具有规定的硬件可用性指标的地方。
我认为,MTBF数量已成为一种销售工具。现代硬件已达到MTBF编号基本上无用的状态。即使是最低端的低端供应商,其生产的硬件也比任何合理的升级周期都要长。您注意到,没有人报告MTBF编号。我相信这就是原因。
不幸的是,MTBF在现代服务器中不是实用或可靠的度量。MTBF的全部概念是,如果许多人长时间使用特定的模型/配置,我们可能会知道其可靠性。
如今,我们大多数人高兴地以潜在的额外可靠性换取了已证明的额外性能和功效。例如,您是否会因为证明其可靠性而在18-24个月旧的硬件上构建新服务器?还是只使用具有更多内核,马力和能效的最后一代CPU?
而且,与老式电话系统不同,系统是完全定制的,并且当然严重依赖软件。BIOS版本x.xx或驱动程序版本y.yyy有多可靠?最新的OS / DB / app服务器修补程序是否增加了稳定性,或者它具有稳定性退化?实际上,世界上有多少台服务器使用的硬件/堆栈版本与您完全相同?
如果您需要高可用性,则无论如何都需要为系统添加冗余(双重功能,群集,热备用,DRP,您拥有的功能)。因此,每个硬件组件的相对可靠性通常都不是重要因素,因为您构建基础结构以承受单个组件故障。忍受不确定性(可靠性具有追溯力)并据此计划。