Answers:
首先,我必须问:“关机”?您是说计算机重新启动还是实际上停止了?如果停止,则说明它配置错误(也许在BIOS中),或者某些设备正在主动关闭计算机(即,init 0)。
如果不是这样,您的主要候选对象将是/ var / log / syslog和/var/log/kern.log,因为您的问题听起来像是内核恐慌或软件触发的硬件故障。当然,如果服务器运行某些服务(例如apache)也可能为您提供线索。
通常,在这种情况下,会生成日志条目,但是由于计算机遇到困难,因此无法设法将这些条目写入磁盘。如果该框位于同一位置,则很有可能是colo合作伙伴将其连接到串行控制台。如果在上述日志中没有发现任何可疑的东西,那就是我要寻找的地方。
如果计算机未连接到串行控制台,并且日志中没有任何内容,则您可能需要考虑通过网络将syslog发送到其他设备。也许网络接口可以存活更长的时间,并且可以在syslog服务器上读取日志消息。看一下rsyslog或syslog-ng。
更新:
我同意下面的@Johann。停止的最可能原因是处理器温度看门狗。尝试通过lmsensors或smartctl(通常最简单)检查/绘制框内的温度。我发现,在随时间跟踪大量变量方面,collected是无与伦比的。它可以同时执行IPMI和lm传感器以及hddtemp。另外,某些BIOS:es记录温度停止事件。
首先,您要检查/var/log/syslog
。如果你不知道要寻找什么,你可以寻找的话开始error
,panic
和warning
。
grep -i error /var/log/syslog
如果您有可用的系统图(例如Munin)。检查它们并查找异常模式。如果您尚未安装munin,则建议将其安装(apt-get install munin munin-node
)
您还应该检查root-mail是否有任何有趣的消息,这些消息可能与系统崩溃有关。
您应检查的其他日志文件是应用程序错误日志。例如/var/log/apache2/error.log
或类似。它们可能包含导致您遇到问题的信息。
/ var / log目录(及其子目录)中有许多日志文件,包括
/var/log/boot
和
/var/log/boot.log
从上面的文件开始。
有两种检查触发关闭方式的方法,首先检查带外管理控制台中是否存在硬件问题,我建议配置SNMP并接收电子邮件,或在监视软件中添加陷阱以获取任何警报。
然后通过操作系统,您可以检查/var/log/messages
(基于RedHat的发行版)或/var/log/syslog
(基于Debian的发行版)。
您可以找到系统是否知道下一条命令将要关闭的事实
sudo last -1x reboot
sudo last -1x shutdown
如果没有信息=>则可能是断电或其他外部原因
如果您有信息=>在重新启动/关闭时间附近搜索日志