HP服务器的自动化硬件测试?


9

作为预配服务器的一部分,我们运行HP的Insight Diagnostics来测试硬件。这是一个手动过程。有没有一种方法可以自动运行Insight Diagnostics?

有hpdiags软件,带有选项“ -rd:”“对所有可诊断设备进行诊断”。根据我的测试,这并没有多大作用(它只是从磁盘读取SMART信息)。有人有更好的运气吗?

硬件:具有HP ProLiant BL460c刀片服务器DL360s的BladeCenter c7000。

操作系统:ESXi和Ubuntu。


2
简短的答案是,我不会在大型环境中这样做。监视和车载诊断就足够了。但是,您能否提供一些有关所用服务器型号的信息?也许涉及的操作系统。
ewwhite

我用要求的信息更新了票证。
马克·瓦格纳

您是否正在安装惠普特定版本的ESXi?您是否在Ubuntu系统上安装了HP Management Agents?服务器是哪几代?G6?G7?Gen8?
ewwhite

HP管理代理已安装在ESXi和Ubuntu上。服务器是Gen8,将是Gen9。
马克·瓦格纳

8
I updated the ticket with the requested info-这让我发笑。这不是服务台。
joeqwerty 2015年

Answers:


8

因此,我将提出另一个问题:

在配置之前,为什么必须在服务器上运行HP Insight硬件诊断?

在上面的评论中,我指出在大型HP ProLiant环境中抢先执行此操作无济于事。我应该澄清我的想法...

按照降序排列,让我们看一下您通常会遇到的问题类型:

  • 存储阵列和磁盘:RAID控制器将向操作系统报告,日志,SNMP,电子邮件,ILO,并点亮漂亮的灯指示运行状况。

  • RAM:POST进程将检测RAM状态,以及向OS报告的系统,日志,SNMP,电子邮件,ILO并在前面板Systems Insight Display(SID)上点亮LED指示灯。另外,我也不喜欢RAM老化过程,因为这些系统的错误检测已经很可靠。

  • 散热和风扇:服务器温度和风扇速度由ILO调节。这些系统上有30多个温度传感器,因此冷却系统非常高效。这仍然会向OS,日志,SNMP,电子邮件和SID报告。

  • 电源设备:PSU状态会报告给OS,日志,SNMP,电子邮件和SID,以及实际电源设备上的实际指示灯。

  • 总体健康状况:除了内部健康状况和外部健康状况LED指示灯外,还可以通过SID显示屏一目了然地进行评估。这也报告给服务器的日志,SNMP,电子邮件和ILO。

在此处输入图片说明

我无法想到在部署前发现的,在运行时或操作系统安装后不会/无法报告的任何条件。

当在没有明显先验问题的系统上运行时,诊断循环通常将找不到任何东西。这主要是因为服务器需要POST并启动到实用程序或Intelligent Provisioning固件中才能运行该实用程序。

换句话说,任何对服务器来说是严重的“ SPOF”的项目都可能会阻止系统运行其自我诊断。

最常见的故障项目仍然相当可靠。磁盘应该在RAID中并且可以热插拔。风扇和电源也可以热插拔。您的RAM具有ECC阈值,并且大多数ProLiant平台都有在线备用选项。通过运行诊断程序,您将无法采取任何措施来诱发这些组件的故障。加上您正在使用具有内部冗余的HP C7000刀片式机箱的事实,并且发生故障的可能性应该很小。


问题是如果(a)在OS安装后检测到故障(即服务器已投入生产),(b)无法在线进行维修,或者发生故障的组件是服务器的SPOF,并且(c)服务器是SPOF,则您将遇到停机时间(立即停机或将系统停机进行维修时)。为避免得出结论,您需要避免出现以下情况之一。我打算通过在生产之前检测故障来进行(a)。非常感谢您详细介绍报告功能,但我希望避免因为它们没有发生而首先报告它们。
马克·瓦格纳

考虑到服务器需要POST并启动到公用程序或Intelligent Provisioning中才能运行诊断程序,因此HP诊断循环可能什么也找不到。最常见的故障项目非常可靠;磁盘,风扇和电源可热插拔,RAM具有ECC阈值。您无能为力地导致这些组件发生故障。
ewwhite
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.