我有一个新的HP ProLiant DL360 G7系统,该系统显示出难以重现的问题。在POST过程中,服务器会随机挂在“ 正在进行功率和热校准... ”屏幕上。通常在从已安装的操作系统进行热启动/重新引导之后。
此时系统将无限期停止。通过ILO 3电源控件发出复位或冷启动,可使系统正常启动而不会发生意外。
当系统处于此状态时,可以完全访问ILO 3界面,并且所有系统运行状况指示灯均正常(均为绿色)。该服务器位于气候受控的数据中心中,该数据中心具有与PDU的电源连接。环境温度为64°F / 17°C。在部署之前,将系统置于24小时的组件测试循环中,并且没有任何故障。
该服务器的主要操作系统是VMWare ESXi5。我们最初尝试使用5.0版本,然后尝试使用5.1版本。两者都是通过PXE引导和kickstart部署的。此外,我们正在测试裸机Windows和Red Hat Linux安装。
HP ProLiant系统具有一组全面的BIOS选项。除了静态高性能配置文件外,我们还尝试了默认设置。我已经禁用了启动启动屏幕,并且此时与上面的屏幕截图相比,光标只是闪烁了一点。我们还尝试了一些用于BIOS配置的VMWare “最佳实践”。我们已经从HP收到了一个忠告,该忠告似乎概述了类似的问题,但没有解决我们的特定问题。
怀疑硬件问题,我让供应商将相同的系统发送给同一天交货。新服务器是完全相同的构建,磁盘除外。我们将磁盘从旧服务器移到了新服务器。我们在替换硬件上遇到了相同的随机引导问题。
我现在有两个服务器并行运行。该问题在热靴上随机出现。冷靴似乎没有问题。我正在研究一些更深奥的BIOS设置,例如禁用Turbo Boost或完全禁用功率校准功能。我可以尝试这些,但是没有必要。
有什么想法吗?
- 编辑 -
系统细节:
- DL360 G7-2个X5670六核CPU
- 96GB RAM(12 x 8GB低压DIMM)
- 2个146GB 15k SAS硬盘驱动器
- 2个750W冗余电源
所有用于ProLiant DVD的HP Service Pack上最新的固件。
我曾提到过调用HP并拖曳interwebz,但有提到ILO 3交互不良的情况,但这也发生在物理控制台上的服务器上。惠普还建议使用电源,但这是在成功为其他生产系统供电的数据中心机架中。
低压DIMM与750W电源之间是否存在交互不良的可能性?该服务器应为受支持的配置。