如何调查总挂起的原因?


19

我的Arch机器有时挂起,突然对鼠标或键盘没有任何响应。光标被冻结。Ctrl-Alt-Backsp不会停止X11,而ctrl-alt-del完全不执行任何操作。conky和icewm中的cpu,网络和磁盘活动图将停止更新。几分钟后,风扇打开。使计算机完全执行任何操作的唯一方法是关闭电源。

启动时,CPU温度监视器显示70至80C。吊死之前,我通常会进行低强度的活动,例如在50°C左右进行网络冲浪。

与正常关机相比,日志没有什么特别的。内存检查器运行良好,零缺陷。

我如何调查为什么挂断了?我是否可以找到其他线索的信息?除了关闭外壳或发出哔哔声外,还有什么比关闭电源激烈得多的动作了吗?

这台机器是一台Gateway P6860 17英寸笔记本电脑(笨重但功能强大),并且正在运行Arch 64bit(最新版本)(截至2011年3月)。我很长一段时间都没有遇到这个问题,因此切换到Ubuntu大约一周了然后撤退到新的Arch装置。那是绞刑开始的时候。

更新:是的,肯定是过热的。在某一温度下,鼠标和键盘会停止工作,有时在冷却几分钟后便会起作用。在较高的温度下,会发生更糟的事情,例如完全无响应(包括忽略SysRq)。在这种情况下,不久就会突然断电。我已经通过购买新计算机8D解决了该问题

Answers:


7

如果内核仍在运行且未真正挂起,则Frederik涉及魔术SysRq和内核转储的答案将起作用。由于某种原因,内核可能只是忙于循环。

它不响应Ctrl-Alt-Del的事实告诉我可能不是这种情况,并且计算机正在硬锁定。这意味着硬件故障或密切相关的问题,例如不良的驱动程序。

如果让内存运行测试足够长的时间,则它会很好。您还应该尝试其他方法来对系统施加压力,例如StressLinux。长期运行的基准测试也很好。

要尝试的另一件事是使用Ubuntu Live CD引导系统并尝试正常使用该系统。如果像这样暂时返回Ubuntu不会导致问题再次发生,则很有可能它实际上并不是硬件损坏,而是相关的问题之一,例如驱动程序错误或内核配置不正确。像Ubuntu这样的更流行的发行版可能比Arch这样的发行版具有更稳定的内核配置,这仅仅是因为在发行版的测试阶段尝试了更多的计算机。


我相信Ctrl-Alt-Delete是由init处理的,因此即使内核仍然可以执行,它也可能无法工作。恐慌后,内核不等待SysRq密钥。
jpc 2011年

1
有可能 为了区分的情况下,把ctrlaltdel hard你的/etc/rc.local文件。系统锁定后,请尝试按Ctrl-Alt-Del。如果仍然不执行任何操作,则可以确定内核不再运行。您有硬件或驱动程序故障。
沃伦·杨

1
我已经让内核对Magic SysRq键做出响应,即使它感到惊慌。正确设置kdump服务应确保将完全楔入的系统引导到kdump内核中,因此最终应将其恢复。
jsbillings 2011年

1
快速浏览内核键盘处理代码后,在我看来Ctrl-Alt-Del和魔术SysRq处于同一级别:如果一个可行,则另一个可以。init(1)/ SIGINT问题是单独的,可以通过设置Ctrl-Alt-Del处理来进行硬重启来解决,如我的其他评论所述。
沃伦·杨

11

关于冻结,有以下几种选择:

  • 使用串行端口,如果您的盒子有一个通过向获得转储有console=ttyS0引导选项,如所描述这里。您需要第二台具有串行端口和零调制解调器电缆的计算机来捕获转储文件。

  • 使用netconsole通过网络获取转储,请参见此处

  • 以这种方式使用kexec / kdump可以获得本地转储,请参见此处

关于干净的关机问题,我建议您使用魔术的SysRq键 “同步”光盘,“ U”装入光盘,然后重新“选择”框(字母是您应该在输入alt时键入的字母-sysrq。

编辑:如果将oops / trace发布到lkml,则应该使用内核的最新版本(最好是最新版本),并且不要使用专有模块。


1
我可以想象很多年轻的声音在说:“什么是串口,爷爷?” 实际上,我认为这台机器甚至都没有。
2011年

我记得几年前读过一些有关SysReq的文章。如果机器坏了,我只能用谷歌搜索一下!猜猜我最好忙着设置第二台计算机…
DarenW 2011年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.