我一直在研究在生产环境中运行的HP Gen9服务器的MTTF,MTBF,MTBR和MTBF。
我的问题的根源,应该担心与否。
我似乎无法获得任何好的数据,因为每个服务器都有硬件混合。
在我上一家公司,我们运行了大约2000台戴尔服务器r210 r410 r710,我会说平均每天大约有5台服务器出现某种故障。因此,大约0.25%的服务器出现故障,需要更换部件才能再次使用。
我最后一家公司的所有内容都设置在HA对,N + 2基础架构中,因此对生产没有影响。我们能够更换服务器并继续前进
在我目前的办公室中,我们运行9台服务器,(HP Gen9,56个VM的Hyper-V),我们手边没有很多替换部件,而且数据中心也没有得到管理,因此,如果发生故障,我们必须开车大约45分钟才能替换任何东西。
我的CTO和IT经理似乎很担心,去年他们大约有2.5天的停机时间,我一直在暗示我们需要对服务器进行群集,但他们认为没有必要。
这里有错是对的吗?不知道该怎么办。
我知道,如果CTO发生任何事情,这不是我的责任。这是一家非常小的公司,只有CTO,IT经理,我自己(开发运营)和1个服务台人员。
在运行生产环境的所有经验中,非常有限,很多事情的设置方式我称之为初级级别,我的CTO和IT经理在到达那里之前都不了解集群。他们正处于建立没有HA的DR的项目的中间,我对此表示反对,但失败了。