如何调查Linux服务器意外关闭?


16

在与Debian 6一起突袭10时使用4xSSD的新Xeon 55XX服务器中,在服务器构建后的两周内,我经历了两次随机关闭。关闭前查看带宽日志并不表示有任何异常。服务器负载通常很低(大约1),并且放置在很远的地方,服务器停机时似乎没有断电。

我知道我查看/ var / log,但是不确定应该调查哪些日志以及应该寻找什么。因此,感谢您的提示。


您找到问题所在了吗?
cherouvim 2012年

Answers:


11

首先,我必须问:“关机”?您是说计算机重新启动还是实际上停止了?如果停止,则说明它配置错误(也许在BIOS中),或者某些设备正在主动关闭计算机(即,init 0)。

如果不是这样,您的主要候选对象将是/ var / log / syslog和/var/log/kern.log,因为您的问题听起来像是内核恐慌或软件触发的硬件故障。当然,如果服务器运行某些服务(例如apache)也可能为您提供线索。

通常,在这种情况下,会生成日志条目,但是由于计算机遇到困难,因此无法设法将这些条目写入磁盘。如果该框位于同一位置,则很有可能是colo合作伙伴将其连接到串行控制台。如果在上述日志中没有发现任何可疑的东西,那就是我要寻找的地方。

如果计算机未连接到串行控制台,并且日志中没有任何内容,则您可能需要考虑通过网络将syslog发送到其他设备。也许网络接口可以存活更长的时间,并且可以在syslog服务器上读取日志消息。看一下rsyslog或syslog-ng。

更新:

我同意下面的@Johann。停止的最可能原因是处理器温度看门狗。尝试通过lmsensors或smartctl(通常最简单)检查/绘制框内的温度。我发现,在随时间跟踪大量变量方面,collected是无与伦比的。它可以同时执行IPMI和lm传感器以及hddtemp。另外,某些BIOS:es记录温度停止事件。


我要求支持人员手动启动机器后,机器就停了下来,恢复了生命。
alfish 2012年

如果温度是问题所在,请安装munin跟踪一段时间内的温度数据以发现趋势。
pkhamre,2012年

+1温度问题。在数据中心的一台服务器上有同样的事情-事实证明,他们在构建系统时忘记连接其中一个CPU风扇。
格兰特(Grant)

9

首先,您要检查/var/log/syslog。如果你不知道要寻找什么,你可以寻找的话开始errorpanicwarning

grep -i error /var/log/syslog

如果您有可用的系统图(例如Munin)。检查它们并查找异常模式。如果您尚未安装munin,则建议将其安装(apt-get install munin munin-node

您还应该检查root-mail是否有任何有趣的消息,这些消息可能与系统崩溃有关。

您应检查的其他日志文件是应用程序错误日志。例如/var/log/apache2/error.log或类似。它们可能包含导致您遇到问题的信息。


6

以我的经验,“意外停止”几乎总是由过热引起的。通过lm_sensors检查温度和风扇速度,并确保它们良好。

最近,我们采用了相同的模式:支持手动启动服务器后,服务器停止了约一个小时。此小时后,CPU温度达到BIOS中配置的阈值(iirc 60或70°C),并停止了系统。所有这些故障都是由CPU风扇损坏引起的。更换风扇后,一切恢复正常。


2

/ var / log目录(及其子目录)中有许多日志文件,包括

/var/log/boot

/var/log/boot.log

从上面的文件开始。


并寻找“什么”?
Pierre.Vriens

这取决于发生故障的类型。在大多数情况下,根本原因是内核崩溃,电源故障或过热导致的CPU关闭,这意味着没有人可以将条目写入日志文件并将其刷新到磁盘上,因此根本就没有消息。 。
asdmin

1

有两种检查触发关闭方式的方法,首先检查带外管理控制台中是否存在硬件问题,我建议配置SNMP并接收电子邮件,或在监视软件中添加陷阱以获取任何警报。

然后通过操作系统,您可以检查/var/log/messages(基于RedHat的发行版)或/var/log/syslog(基于Debian的发行版)。


0

磁盘子系统非常复杂,以至于发生问题时都会受到影响,因为您几乎无法在日志文件中得到任何东西。

尝试登录串行控制台。这需要一些电缆,并且需要其他系统来接上线路,但是您实际上更有可能抓住问题。

当然,如果您的节点具有类似于Oracle ALOM / ILOM的内置管理系统,则还可以检查可能的问题并在那里记录日志文件。


-1

您可以找到系统是否知道下一条命令将要关闭的事实

sudo last -1x reboot
sudo last -1x shutdown

如果没有信息=>则可能是断电或其他外部原因

如果您有信息=>在重新启动/关闭时间附近搜索日志

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.