(最初发布在serverfault上)
因此,我不只是猜测起因是什么(尽管我的钱是花在nvidia驱动程序上),我从哪里开始寻找一些事实呢?
我已经多次浏览过/ var / log,但是里面有很多东西,但我还不能发现重要的部分。
背景:简短版
可用后,我从WinXP迁移到Ubuntu Karmic。
从那以后,我发生了一系列看似随机的崩溃,表现为:
- 自发重启
- USB键盘和鼠标无响应(直到LED都熄灭)导致完全锁定。同样,发生这种情况时,我通常将无法切换到框。
我已经进行了很多搜索,而Nvidia似乎是主要的嫌疑人,但我不知道从哪里开始寻找真正的原因。
服务器故障用户建议使用MemtextX86 +检查RAM。找不到错误。还建议监视视频卡温度,我现在正在研究。
除此之外,有人建议吗?
背景:长版
有时,我可以整整一个星期都不会崩溃,然后两天之内有5个。
出于消除可能的嫌疑人的渴望,我随时间进行了一些更改,但无济于事:
- 最初,我使用KVM进行虚拟化,现在使用VirtualBox OSE
- 我在内核中运行了NFS,但是现在使用Samba
- 我正在使用Compiz,但此后将其关闭
- 我已经从64位Karmic更改为32位(以及其他原因)
- 我已经尝试过Ubuntu,Kubuntu和Xubuntu。每次都遇到相同的麻烦(尽管最近,在Gnome中似乎比在XFCE中更频繁)。
- 我将Nvidia驱动程序从185版回滚到96版(NVIDIA Linux x86内核模块96.43.13 Phu Jun 25 18:42:21 PDT 2009)。这似乎减少了错误的频率。
根据当时的运行情况,这可能会有所不同。以下是常见现象,但不一定在每次崩溃时都运行:
- Firefox 3.5
- 具有1个或2个Windows XP VM的VirtualBox OSE
- Skype的
- Rhythmbox或Exaile
我的硬件已使用2-3年:
- 酷睿2 Duo 6300
- 4GB内存
- 那个年代的某些英特尔主板
- 带有Nvdia GeForce 7300 GS芯片组的华硕双头视频卡
- 2个SATA硬盘
- 双显示器(因此我依赖于专有的nvidia驱动程序)
我一直在跟上我的系统更新。
希望上面的数据可以提示某人建议值得研究的特定类型的日志或配置。
更新1
刚出车祸,扬声器发疯了。进行了一些谷歌搜索,似乎PulseAudio在过去遇到了一些问题。不确定是否与此相关,但是每次崩溃时PulseAudio都会一直在运行。
更新2
在@CarlF链接到Debian Sysadmin Guide之后,使我进入了神奇的sysrq密钥,我将在下次崩溃时尝试使用它。并不是说这会为我提供很多有关原因的线索,但至少我希望能够正常关闭。
更新3
lm-sensors报告说我的GPU在接近70C / 158F的温度下运行-很有趣。如果我不得不猜测,那是一个重要的线索。
更新4
在我上次更新后不久,用airduster击中了系统内部-最终结果:此后仅发生了一次崩溃。我将其称为散热问题。