LInux:如何诊断/隔离导致“随机”挂起和自发重启的原因?


20

(最初发布在serverfault上

因此,我不只是猜测起因是什么(尽管我的钱是花在nvidia驱动程序上),我从哪里开始寻找一些事实呢?

我已经多次浏览过/ var / log,但是里面有很多东西,但我还不能发现重要的部分。


背景:简短版

可用后,我从WinXP迁移到Ubuntu Karmic。

从那以后,我发生了一系列看似随机的崩溃,表现为:

  • 自发重启
  • USB键盘和鼠标无响应(直到LED都熄灭)导致完全锁定。同样,发生这种情况时,我通常将无法切换到框。

我已经进行了很多搜索,而Nvidia似乎是主要的嫌疑人,但我不知道从哪里开始寻找真正的原因。

服务器故障用户建议使用MemtextX86 +检查RAM。找不到错误。还建议监视视频卡温度,我现在正在研究。

除此之外,有人建议吗?



背景:长版

有时,我可以整整一个星期都不会崩溃,然后两天之内有5个。

出于消除可能的嫌疑人的渴望,我随时间进行了一些更改,但无济于事:

  • 最初,我使用KVM进行虚拟化,现在使用VirtualBox OSE
  • 我在内核中运行了NFS,但是现在使用Samba
  • 我正在使用Compiz,但此后将其关闭
  • 我已经从64位Karmic更改为32位(以及其他原因)
  • 我已经尝试过Ubuntu,Kubuntu和Xubuntu。每次都遇到相同的麻烦(尽管最近,在Gnome中似乎比在XFCE中更频繁)。
  • 我将Nvidia驱动程序从185版回滚到96版(NVIDIA Linux x86内核模块96.43.13 Phu Jun 25 18:42:21 PDT 2009)。这似乎减少了错误的频率。


根据当时的运行情况,这可能会有所不同。以下是常见现象,但不一定在每次崩溃时都运行:

  • Firefox 3.5
  • 具有1个或2个Windows XP VM的VirtualBox OSE
  • Skype的
  • Rhythmbox或Exaile


我的硬件已使用2-3年:

  • 酷睿2 Duo 6300
  • 4GB内存
  • 那个年代的某些英特尔主板
  • 带有Nvdia GeForce 7300 GS芯片组的华硕双头视频卡
  • 2个SATA硬盘
  • 双显示器(因此我依赖于专有的nvidia驱动程序)


我一直在跟上我的系统更新。

希望上面的数据可以提示某人建议值得研究的特定类型的日志或配置。


更新1

刚出车祸,扬声器发疯了。进行了一些谷歌搜索,似乎PulseAudio在过去遇到了一些问题。不确定是否与此相关,但是每次崩溃时PulseAudio都会一直在运行。


更新2

在@CarlF链接到Debian Sysadmin Guide之后,使我进入了神奇的sysrq密钥,我将在下次崩溃时尝试使用它。并不是说这会为我提供很多有关原因的线索,但至少我希望能够正常关闭。


更新3

lm-sensors报告说我的GPU在接近70C / 158F的温度下运行-很有趣。如果我不得不猜测,那是一个重要的线索。


更新4

在我上次更新后不久,用airduster击中了系统内部-最终结果:此后仅发生了一次崩溃。我将其称为散热问题。


3
出色的格式和背景信息,我希望所有问题都是这样。+1。
约翰T

Answers:


8

这里的《 Debian管理员指南》有很好的建议:http : //www.debian-administration.org/articles/492


有趣的是,他们对于非信息性日志是真正的硬件故障的征兆,不得不说些什么。我在最后一个/ var / log / message条目和重新启动之间有六个小时的间隔。嗯
LRE 2010年

接受该链接是因为该链接明确表明日志中没有任何内容等于硬件问题-引导我朝着正确的方向前进。
LRE

4

您可能需要检查的第一件事是引导过程中是否存在硬件问题。启动过程会将数据从内核环形缓冲区记录到中/var/log/boot.log。系统启动后,新消息将刷新到此缓冲区中,您可以使用以下dmesg命令查看其当前状态。您还想调查的重要日志是/var/log/messages。这将包含时间戳记,工具,错误的优先级以及生成错误的应用程序。调试错误时,拥有可用的时间戳是无价的资产。

随机锁定肯定听起来与硬件有关。尝试重新放置主板上的所有硬件,并使其运行memtest86 +


我在/ var / log / messages中看到一行,内容为“ imklog 4.2.0,日志源= / var / run / rsyslog / kmsg已启动”。这是系统启动的良好指示吗?如果是这样,我可以使用它来查明我可以从中扫描的日志区域。
LRE 2010年

是的,我相信它是启动后的第一行(如果不是第一行的话)。它是内核日志输入模块。
约翰·T

2

您是否尝试过重新安装内存,处理器和其他芯片?另外,您可能希望尝试运行其他操作系统(FreeDOS)以消除某些可能性。

提示,您还应该能够通过Gnome很好地使用两个显示器,而无需使用nvidia驱动程序。


尽我所能告诉我,我绝对需要nvidia专有的驱动程序来使用双显示器。您能指出正确的方向,不需要它们吗?
LRE 2010年

我可能不正确。我仔细研究了一下,看到了对xinerama的引用(我认为驱动程序具有扩展名),但与非专有驱动程序无关。不幸的是,我没有配备nVidia卡的机器。
Nerdfest
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.