HP服务器的自动化硬件测试？

作为预配服务器的一部分，我们运行HP的Insight Diagnostics来测试硬件。这是一个手动过程。有没有一种方法可以自动运行Insight Diagnostics？

有hpdiags软件，带有选项“ -rd：”“对所有可诊断设备进行诊断”。根据我的测试，这并没有多大作用（它只是从磁盘读取SMART信息）。有人有更好的运气吗？

硬件：具有HP ProLiant BL460c刀片服务器DL360s的BladeCenter c7000。

操作系统：ESXi和Ubuntu。

hardware hp hp-proliant automated-testing

— 马克·瓦格纳
source

简短的答案是，我不会在大型环境中这样做。监视和车载诊断就足够了。但是，您能否提供一些有关所用服务器型号的信息？也许涉及的操作系统。

— ewwhite

我用要求的信息更新了票证。

— 马克·瓦格纳

您是否正在安装惠普特定版本的ESXi？您是否在Ubuntu系统上安装了HP Management Agents？服务器是哪几代？G6？G7？Gen8？

— ewwhite

HP管理代理已安装在ESXi和Ubuntu上。服务器是Gen8，将是Gen9。

— 马克·瓦格纳

I updated the ticket with the requested info-这让我发笑。这不是服务台。

— joeqwerty 2015年

因此，我将提出另一个问题：

在配置之前，为什么必须在服务器上运行HP Insight硬件诊断？

在上面的评论中，我指出在大型HP ProLiant环境中抢先执行此操作无济于事。我应该澄清我的想法...

按照降序排列，让我们看一下您通常会遇到的问题类型：

存储阵列和磁盘：RAID控制器将向操作系统报告，日志，SNMP，电子邮件，ILO，并点亮漂亮的灯指示运行状况。
RAM：POST进程将检测RAM状态，以及向OS报告的系统，日志，SNMP，电子邮件，ILO并在前面板Systems Insight Display（SID）上点亮LED指示灯。另外，我也不喜欢RAM老化过程，因为这些系统的错误检测已经很可靠。
散热和风扇：服务器温度和风扇速度由ILO调节。这些系统上有30多个温度传感器，因此冷却系统非常高效。这仍然会向OS，日志，SNMP，电子邮件和SID报告。
电源设备：PSU状态会报告给OS，日志，SNMP，电子邮件和SID，以及实际电源设备上的实际指示灯。
总体健康状况：除了内部健康状况和外部健康状况LED指示灯外，还可以通过SID显示屏一目了然地进行评估。这也报告给服务器的日志，SNMP，电子邮件和ILO。

在此处输入图片说明

我无法想到在部署前发现的，在运行时或操作系统安装后不会/无法报告的任何条件。

当在没有明显先验问题的系统上运行时，诊断循环通常将找不到任何东西。这主要是因为服务器需要POST并启动到实用程序或Intelligent Provisioning固件中才能运行该实用程序。

换句话说，任何对服务器来说是严重的“ SPOF”的项目都可能会阻止系统运行其自我诊断。

最常见的故障项目仍然相当可靠。磁盘应该在RAID中并且可以热插拔。风扇和电源也可以热插拔。您的RAM具有ECC阈值，并且大多数ProLiant平台都有在线备用选项。通过运行诊断程序，您将无法采取任何措施来诱发这些组件的故障。加上您正在使用具有内部冗余的HP C7000刀片式机箱的事实，并且发生故障的可能性应该很小。

— 怀特
source

问题是如果（a）在OS安装后检测到故障（即服务器已投入生产），（b）无法在线进行维修，或者发生故障的组件是服务器的SPOF，并且（c）服务器是SPOF，则您将遇到停机时间（立即停机或将系统停机进行维修时）。为避免得出结论，您需要避免出现以下情况之一。我打算通过在生产之前检测故障来进行（a）。非常感谢您详细介绍报告功能，但我希望避免因为它们没有发生而首先报告它们。

— 马克·瓦格纳

考虑到服务器需要POST并启动到公用程序或Intelligent Provisioning中才能运行诊断程序，因此HP诊断循环可能什么也找不到。最常见的故障项目非常可靠；磁盘，风扇和电源可热插拔，RAM具有ECC阈值。您无能为力地导致这些组件发生故障。

— ewwhite