内核:日记提交I / O错误


9

我在使用Dell 1950服务器时遇到了一些问题。我将在此处与Oracle和其他一些软件一起安装RHEL 4.6。

我在ssh会话和监视器上随机收到一条错误消息,内容为“内核:日记提交I / O错误”,我已连接到服务器,然后滚动查看错误消息,显示“ EXT3-fs错误(设备sda5)”在start_transaction中:日志已中止。”

它已经发生过几次,但从未在安装过程中的同一时间发生过。实际上,上一次系统启动并运行时,我只是试图将数据库导入到oracle中。

这已经发生在几个硬盘驱动器上,所以我很确定这不是问题。这使我认为RAI​​D控制器变坏了。

你们有什么感想?

**更新**

可以肯定这是一个坏硬盘。我在服务器中扔了另一个驱动器,它已经运行了约48个小时,没有出现问题。

Answers:


9

我之前已经看到过这些错误,但是在安装过程中却没有。

这意味着驱动器有足够的错误,导致操作系统将其带入只读模式。如果您可以找到完整的日志,则可能会遇到一些I / O错误,这些错误会在看到完整的故障错误之前重试并起作用。提到了一些实际的块。

这是存储系统错误。绝对是RAID卡,RAID阵列中的驱动器,从卡到驱动器的电缆,驱动器所连接的背板,RAID卡插入的插槽,硬盘驱动器的电源或其他东西。在CPU和实际存储块之间。


2

我想到了三种可能性:

  1. 存在内存问题(它们通常会导致“随机”崩溃)。如果您在其中装有ECC内存,那么显然可能性较小。

  2. 公交车有问题。几年前,我在Tyan双Opteron主板上APIC控制器损坏时遇到了同样的问题。还有其他日志条目对此进行了提示,但是大多数症状是带有自动只读重新安装的磁盘驱动器上的随机损坏。就我而言,我知道它与磁盘无关,因为它是一个外部FC RAID盒,还可以。

  3. RAID控制器是双层的。

这是我考虑问题的顺序。


可能不是内存问题;这些将更可能导致段错误和更多的随机错误,而不仅限于存储。
freiheit

真正。但是在安装或早期启动的情况下,大部分内存使用是缓冲区高速缓存,因此问题往往首先出现在此。一旦计算机运行了一段时间的负载,用户进程就会控制内存I / O,从而导致段故障的普遍性。也就是说,PE1950应该具有Xeon处理器和ECC ram,因此RAM应该能够检测到它并报告给Linux。
Alexandre Carmel-Veilleux 2009年

2

RAID控制器可能像您所说的那样坏了(如果有,请尝试备用)。它可能是控制器的驱动程序(检查可用的替代驱动程序,即使性能较差,最好有一个参考点) 。)可能是内核(尽管在RHEL中不太可能,但它已经过充分测试。)可能是坏的RAM弄乱了块缓存。

但是,基于看似随机的错误行为,最有可能是硬件问题。


2

检查磁盘是否已满-特别是根分区。使用df查看文件系统磁盘使用情况:

df -h

查找利用率接近或等于100%的分区


-5

尝试:

立即关闭-rF

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.