如何从MCE消息中查找有故障的内存模块?


11

我试图了解MCE消息以查找服务器上哪个内存模块损坏。此消息出现在/var/log/kern.log一台服务器中,该服务器今天冻结了两次。

Apr 13 22:39:22 mbox kernel: [36247975.116860] sbridge: HANDLING MCE MEMORY ERROR
Apr 13 22:39:22 mbox kernel: [36247975.116867] CPU 0: Machine Check Exception: 0 Bank 5: 8c00004000010090
Apr 13 22:39:22 mbox kernel: [36247975.116869] TSC 0 ADDR 4a0d75900 MISC 21405cdc86 PROCESSOR 0:206d7 TIME 1428957562 SOCKET 0 APIC 0
Apr 13 22:39:22 mbox kernel: [36247975.951013] EDAC MC0: 1 CE memory read error 

我怀疑内存模块坏。服务器是带有8x8Go内存模块的2x Xeon E5-2650(每个CPU 8个内存插槽)

这是来自的内存模块填充lshw

 *-memory:0
      description: System Memory
      physical id: 2d
      slot: System board or motherboard
    *-bank:0
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-197.A
         vendor: Kingston
         physical id: 0
         serial: B83AE5C2
         slot: P1_DIMMA1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:1
         description: DIMM Synchronous [empty]
         product: Dimm1_PartNum
         vendor: Dimm1_Manufacturer
         physical id: 1
         serial: Dimm1_SerNum
         slot: P1_DIMMA2
         width: 64 bits
    *-bank:2
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 2
         serial: EC309238
         slot: P1_DIMMB1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:3
         description: DIMM Synchronous [empty]
         product: Dimm4_PartNum
         vendor: Dimm4_Manufacturer
         physical id: 3
         serial: Dimm4_SerNum
         slot: P1_DIMMB2
         width: 64 bits
    *-bank:4
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 4
         serial: E9305438
         slot: P1_DIMMC1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:5
         description: DIMM Synchronous [empty]
         product: Dimm7_PartNum
         vendor: Dimm7_Manufacturer
         physical id: 5
         serial: Dimm7_SerNum
         slot: P1_DIMMC2
         width: 64 bits
    *-bank:6
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 6
         serial: E7305738
         slot: P1_DIMMD1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:7
         description: DIMM Synchronous [empty]
         product: Dimm10_PartNum
         vendor: Dimm10_Manufacturer
         physical id: 7
         serial: Dimm10_SerNum
         slot: P1_DIMMD2
         width: 64 bits
 *-memory:1
      description: System Memory
      physical id: 3f
      slot: System board or motherboard
    *-bank:0
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-197.A
         vendor: Kingston
         physical id: 0
         serial: B63A08C3
         slot: P2_DIMME1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:1
         description: DIMM Synchronous [empty]
         product: Dimm1_PartNum
         vendor: Dimm1_Manufacturer
         physical id: 1
         serial: Dimm1_SerNum
         slot: P2_DIMME2
         width: 64 bits
    *-bank:2
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 2
         serial: EA309638
         slot: P2_DIMMF1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:3
         description: DIMM Synchronous [empty]
         product: Dimm4_PartNum
         vendor: Dimm4_Manufacturer
         physical id: 3
         serial: Dimm4_SerNum
         slot: P2_DIMMF2
         width: 64 bits
    *-bank:4
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 4
         serial: E7305938
         slot: P2_DIMMG1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:5
         description: DIMM Synchronous [empty]
         product: Dimm7_PartNum
         vendor: Dimm7_Manufacturer
         physical id: 5
         serial: Dimm7_SerNum
         slot: P2_DIMMG2
         width: 64 bits
    *-bank:6
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 6
         serial: E7305B38
         slot: P2_DIMMH1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:7
         description: DIMM Synchronous [empty]
         product: Dimm10_PartNum
         vendor: Dimm10_Manufacturer
         physical id: 7
         serial: Dimm10_SerNum
         slot: P2_DIMMH2
         width: 64 bits
 *-memory:2 UNCLAIMED
      physical id: 7
 *-memory:3 UNCLAIMED
      physical id: 9

如您所见,#5号存储区上没有任何存储模块。所以我的问题是:您是否同意此消息与内存故障有关?如果是这样,我如何找到要更换的模块?

Answers:


10

这些错误来自设备的“ EDAC-错误检测和纠正” edac_mc类。

您收到的事件是CE事件(可纠正的错误)。这些表明DIMM开始出现故障。

EDAC尚未报告有关它所指向的内存行或通道的任何特定信息,因此很难确定要替换的行或通道。

但是看看:/ sys / devices / system / edac / mc / mc *,这可能会告诉您更多关于哪一行/暗号可能是有问题的信息。

例如

ls -s /sys/devices/system/edac/mc/mc0 total 0 0 ce_count 0 csrow1 0 csrow4 0 csrow7 0 reset_counters 0 size_mb 0 ce_noinfo_count 0 csrow2 0 csrow5 0 device 0 sdram_scrub_rate 0 ue_count 0 csrow0 0 csrow3 0 csrow6 0 mc_name 0 seconds_since_reset 0 ue_noinfo_count

查看ce_count字段。

在侧面说明:

该系统仍可以继续运行,但安全性较低。预防性维护和主动更换具有CE的内存DIMM可以减少发生可怕的UE(无法纠正的错误)事件和系统“恐慌”的可能性。

有关edac的更多信息,请点击此处:

https://www.kernel.org/doc/Documentation/edac.txt


或重新启动,然后在GRUB引导屏幕上,选择memtest,这可能会给您更多信息。
kamger

今天早上这里没有更多的MCE消息(无法物理访问服务器),等待它检查edac,好主意!
Matg

1

它可以帮助安装mcelog并将其作为守护程序运行,可以帮助提供更好的报告。它们仍然是隐秘的,但是还有更多的信息可用来查找暗道DIMM。

mcelog还可以通过禁用内存过多错误的页面来处理实时问题,从而使您有更多机会使计算机保持更长的运行时间,直到您可以恢复它为止。


谢谢,这是我所做的,但自发布以来没有更多错误。我们决定更换所有DIMM。
Matg

有时错误只是短暂的瞬变,有时它们只是与很少碰到的非常特定的位置相关。如果错误没有重发,我个人不会替换掉暗淡的东西并保持监视,但是替换同样有效。
Baruch Even

1

一些供应商说,在一定时间内可以纠正的几个错误是没有害处的。

例如,Oracle说发生以下事件之一时更换DIMM:

  • 一个DIMM在24小时内产生了24个以上的可纠正错误(CE),并且没有其他DIMM显示更多的CE。

  • 由于无法纠正的内存错误(UCE),DIMM无法在BIOS下进行内存测试。

  • UCE发生并且调查显示错误源自内存。

请注意24小时内有24个错误。

https://docs.oracle.com/cd/E19150-01/820-4213-11/dimms.html

也,

如果一个以上的DIMM经历了多个CE,则在更换任何DIMM之前,必须由合格的Sun支持专家排除CE的其他可能原因。

最后一点,惠普说类似的话可能只是服务器固件误检测了内存错误。他们说,在许多情况下,固件升级可以修复误报警报。如果您开始从不同的DIMM接收MCE,则尤其如此。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.