找出导致服务器重新启动的原因


8

我有一个运行VMWare ESXi 5.5HP ProLiant DL380p Gen8。在过去的24小时内,它似乎一直在随机重启。只有一个VM在运行,即使我将其关闭,主机仍将重新引导。服务器没有耗尽内存或磁盘空间,据我所知并没有过热。我尝试浏览日志文件,但是要看的东西太多了。

诊断此问题最重要的步骤是什么(包括要检查的设置,要查看的文件,会显示故障的特定消息,我应该开始拉内存,是否有诊断光盘可以为我完成所有这些工作,等等) ?

我知道这是一个非常广泛的问题。我很乐意在必要时提供日志文件,以使其更适合我的情况。

Answers:


9

这里有一些建议。

  • 您的ILO是否已连接并配置?它会告诉您确切的系统情况。请查看ILO4日志。

  • 查看系统的IML日志(可通过ILO或vSphere“硬件”选项卡获得)

  • 在崩溃或开机自检期间,屏幕上是否有任何指示符或错误消息?

  • 您是否正在使用HP特定于ESXi的安装(包括其他驱动程序和工具)

  • 您正在运行什么版本的ESXi和内部版本号?

  • 如果您正在运行的虚拟机是Windows 2012或2008来宾,则可能正在运行NIC驱动程序错误

  • 检查电源连接。您有双电源吗?一次重新安装电源电缆。

  • 查看服务器正面的System Insight LED阵列,以确定是否存在内部运行状况问题。

在此处输入图片说明


2
并致电供应商以寻求支持。您可以并且应该花一些时间进行自我调查,但是,如果这是一台重要的服务器,则应遵循支持协议。
mfinni 2014年

我尚未设置国际劳工组织,非常感谢您的建议。设置完成后,我检查了日志并找到了System Overheating (Temperature Sensor 1, Location Ambient, Temperature 46C)。我马上将其修复。
nachito 2014年

这意味着您的服务器机房或环境太热。这也会在上图中的温度LED上产生红色的光。根据部署此服务器的时间,您可能还希望在系统上运行固件更新。
ewwhite

我认为发生的是另一个机架的排气太接近本机的进气口,因为房间本身是一个很凉爽的72F。当我重新启动计算机时,我确实看到了OverTemp闪存不到一秒钟的时间。毫不奇怪,我从来没有见过,如果您在错误的时刻眨眼,您会完全想念它
nachito 2014年

3
@nachito我希望您知道国际劳工组织和服务器可以通过电子邮件向您发送健康警报,例如这种温度情况……
ewwhite
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.