调试Linux机器冻结


9

我有15个相同的Linux RH 4.7 64位服务器。他们运行集群数据库(集群是应用程序级别的)。偶尔(每个月左右),一个随机的盒子(虽然不一样)会冻结。

我可以ping通此框并ping通。如果我尝试在框中输入ssh,则会得到:

ssh_exchange_identification: Connection closed by remote host

SSH设置正确。

当我进入服务器机房并尝试直接登录控制台时,可以使用Alt+ 切换控制台Fn,可以输入用户名,并且会显示字符,但是按之后Enter,什么也不会发生。我等了8个小时,而且没有变化。

我设置了syslog以将所有内容记录到远程主机,这些日志中没有任何内容。当我重新启动计算机时,它可以正常工作。我已经进行了硬件测试-一切正常,日志中没有任何内容。机器还通过NAGIOS进行监控,冻结之前没有异常负载或活动。

我的想法已经用光了。我还能做什么或检查什么?


您运行了哪些硬件测试?您使用了哪些工具?
tshepang

硬件是HP专用软件,我使用其util来检查RAID状态,正常的智能工具不起作用,我使用了memtest来检查内存。我几个月来一直遇到这个问题,而且它从来没有同一台服务器。
卢卡·马林科

RedHat支持建议什么?
RedGrittyBrick 2011年

卢卡,在控制台上,什么也不做只输入后发生的用户名和按下回车键,或者它提示你输入密码后没有反应?
mattdm 2011年

如果您解决了问题,请编辑您的问题,以描述实际存在的错误以及您所做的操作以供他人查看。
托尔比约恩Ravn的安德森

Answers:


6

听起来您的内核有些恐慌,以致sshd无法发送服务器密钥。可能,内核以某种方式被楔住,以致网络堆栈仍处于启动状态,但vfs层不可用。

当我在RHEL4系统上遇到类似问题时,我设置了netdump和netconsole服务,以及一个专用的netdump和syslog服务器来捕获故障转储和内核恐慌信息。我还将kernel.panic sysctl设置为10。这样,当系统出现紧急情况时,您既可以获取内核跟踪信息,又可以获取该系统上的内存副本,可以使用“ crash”实用程序对其进行分析。

当然,您还可以从为主机设置串行控制台中受益,这样您就可以看到控制台的输出,并有可能击中神奇的sysrq键。另外,如果您愿意设置网络并且拥有支持该网络的硬件,则可以使用IPMI远程关闭,开机,重新启动和查询硬件。

(就其价值而言,RHEL5与kexec / kdump具有类似的功能,仅故障转储存储在本地)


嗨,我可以直接通过KVM进行控制台访问,那里什么也没有。我可以在虚拟终端之间切换,输入我的用户名,仅此而已,ctr + alt + del也不起作用,但是应该从控制台输入。
Luka Marinko

另外,服务器具有HP的ILO,我可以重新启动它们,并从远程查看硬件的状态。那里没有错误
Luka Marinko

在此期间,您是否检查过系统日志?听起来像是惊慌的内核。我不信任Linux服务器上的KVM,内核恐慌常常不出现在控制台上,或者它已损坏或仅出现了最后几行,这就是为什么我更喜欢串行控制台。
jsbillings

1
这听起来不像是内核恐慌。控制台切换仍然有效,并且登录程序仍处于活动状态。
mattdm 2011年

是的,我已将系统日志重定向到中央系统日志服务器。日志中没有异常。
Luka Marinko

3

我会把钱押在甜甜圈上,以免您的内存不足。该系统在试图找出从中获取一些信息时正在停顿下来。它可能发生得如此之快,以至于您的监视无法捕捉到它。我会加强监视,包括远程记录内存使用情况。还要在日志中签入OOM消息。

(您甚至可能只想在顶部打开一些ssh窗口。)


3

在我看来,这似乎是系统资源不足,因此无法分配ssh服务器端所需的进程。

实际的瓶颈可能会有所不同-进程数或内存不足-唯一可以确定的方法是查看日志和控制台以查看其中是否存在任何内容。您可能想设置一个预先启动的ssh-jobs场景-每台机器一个-只是为了在下次发生时做好准备。

如果确实很糟糕,那么您可能要考虑使用更多内置命令来启动另一个Shell,以便您可以进行更多调查而不必启动额外的进程,因为这可能无法实现。同样,“ tail -f / var / log / *”可能非常有用。

祝好运。


0

我唯一看到的相似之处是使用KVM切换器和键盘热键(例如alt + n)在服务器之间进行切换。并不是每次都发生这种情况,而是服务器被从受影响的服务器中撤离了-因此并没有立即引起注意。如果使用KVM切换器上的物理按钮本身在服务器之间进行切换,则不会发生锁定。如果经常使用热键,则有时服务器将不允许新登录。现有的SSH会话不受影响。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.