因此,我将提出另一个问题:
在配置之前,为什么必须在服务器上运行HP Insight硬件诊断?
在上面的评论中,我指出在大型HP ProLiant环境中抢先执行此操作无济于事。我应该澄清我的想法...
按照降序排列,让我们看一下您通常会遇到的问题类型:
存储阵列和磁盘:RAID控制器将向操作系统报告,日志,SNMP,电子邮件,ILO,并点亮漂亮的灯指示运行状况。
RAM:POST进程将检测RAM状态,以及向OS报告的系统,日志,SNMP,电子邮件,ILO并在前面板Systems Insight Display(SID)上点亮LED指示灯。另外,我也不喜欢RAM老化过程,因为这些系统的错误检测已经很可靠。
散热和风扇:服务器温度和风扇速度由ILO调节。这些系统上有30多个温度传感器,因此冷却系统非常高效。这仍然会向OS,日志,SNMP,电子邮件和SID报告。
电源设备:PSU状态会报告给OS,日志,SNMP,电子邮件和SID,以及实际电源设备上的实际指示灯。
总体健康状况:除了内部健康状况和外部健康状况LED指示灯外,还可以通过SID显示屏一目了然地进行评估。这也报告给服务器的日志,SNMP,电子邮件和ILO。
我无法想到在部署前发现的,在运行时或操作系统安装后不会/无法报告的任何条件。
当在没有明显先验问题的系统上运行时,诊断循环通常将找不到任何东西。这主要是因为服务器需要POST并启动到实用程序或Intelligent Provisioning固件中才能运行该实用程序。
换句话说,任何对服务器来说是严重的“ SPOF”的项目都可能会阻止系统运行其自我诊断。
最常见的故障项目仍然相当可靠。磁盘应该在RAID中并且可以热插拔。风扇和电源也可以热插拔。您的RAM具有ECC阈值,并且大多数ProLiant平台都有在线备用选项。通过运行诊断程序,您将无法采取任何措施来诱发这些组件的故障。加上您正在使用具有内部冗余的HP C7000刀片式机箱的事实,并且发生故障的可能性应该很小。