适用于HP ProLiant Gen9的MTTF,MTBF,MTBR和MTBF


14

我一直在研究在生产环境中运行的HP Gen9服务器的MTTF,MTBF,MTBR和MTBF。

我的问题的根源,应该担心与否。

我似乎无法获得任何好的数据,因为每个服务器都有硬件混合。

在我上一家公司,我们运行了大约2000台戴尔服务器r210 r410 r710,我会说平均每天大约有5台服务器出现某种故障。因此,大约0.25%的服务器出现故障,需要更换部件才能再次使用。

我最后一家公司的所有内容都设置在HA对,N + 2基础架构中,因此对生产没有影响。我们能够更换服务器并继续前进

在我目前的办公室中,我们运行9台服务器,(HP Gen9,56个VM的Hyper-V),我们手边没有很多替换部件,而且数据中心也没有得到管理,因此,如果发生故障,我们必须开车大约45分钟才能替换任何东西。

我的CTO和IT经理似乎很担心,去年他们大约有2.5天的停机时间,我一直在暗示我们需要对服务器进行群集,但他们认为没有必要。

这里有错是对的吗?不知道该怎么办。

我知道,如果CTO发生任何事情,这不是我的责任。这是一家非常小的公司,只有CTO,IT经理,我自己(开发运营)和1个服务台人员。

在运行生产环境的所有经验中,非常有限,很多事情的设置方式我称之为初级级别,我的CTO和IT经理在到达那里之前都不了解集群。他们正处于建立没有HA的DR的项目的中间,我对此表示反对,但失败了。


医管局要花钱。也许他们认为这不值钱。
迈克尔·汉普顿

Answers:


3

不必担心MTTF,MTBF,MTBR和MTBF数据……为什么这些数据适用于您的环境细节?

服务器具有内部冗余,并且在生产中可以极其稳定。但这取决于您的环境,磁盘阵列/组成,磁盘类型,RAM数量,CPU配置,热特性,电源等。

采用某种形式的高可用性可以减少潜在的停机时间,并为您提供在发生故障时转移工作负载的场所。

这是一个财务和操作风险问题。

从独立到集群的增量成本可能足够高,以至于没有商业意义?2.5天的停机时间(约99.3%的可用性)足以满足您的操作需求。您应该专注于异地保护和良好的备份。您的所有HP Gen9系统今天都处于制造商保修范围内,因此您确实可以使用零件。如果您具有RAID,冗余电源/风扇和稳定的电源,那么您已经涵盖了最关键的领域。

从财务角度考虑此问题,并概述风险,相关成本,并为您想要的内容提供令人信服的业务案例。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.