我应该认真对待ECC可纠正错误警告吗？

我有一堆Sun X2200-M2服务器。这些服务器具有ECC内存。

在其中一些服务器中，我在eLOM中收到有关“检测到可纠正的ECC错误”的警告，例如：

# ssh regress11 ipmitool sel elist
   1 | 05/20/2010 | 14:20:27 | Memory CPU0 DIMM2 | Correctable ECC | Asserted
   2 | 05/20/2010 | 14:33:47 | Memory CPU0 DIMM2 | Correctable ECC | Asserted

...比其他人更频繁。

该特定系统上的内核也会引发EDAC错误，尽管记录ecc事件的频率比eLOM要高得多：

EDAC k8 MC0: general bus error: participating processor(local node response), time-out(no timeout) memory transaction type(generic read), mem or i/o(mem access), cache level(generic)
MC0: CE page 0x42a194, offset 0x60, grain 8, syndrome 0xf654, row 4, channel 1, label "": k8_edac
MC0: CE - no information available: k8_edac Error Overflow set
EDAC k8 MC0: extended error code: ECC chipkill x4 error
EDAC k8 MC0: general bus error: participating processor(local node response), time-out(no timeout) memory transaction type(generic read), mem or i/o(mem access), cache level(generic)
MC0: CE page 0x48cb94, offset 0x10, grain 8, syndrome 0xf654, row 5, channel 1, label "": k8_edac
MC0: CE - no information available: k8_edac Error Overflow set
EDAC k8 MC0: extended error code: ECC chipkill x4 error

现在，如果服务器检测到不可纠正的ECC，则系统将重置，以至于很明显这很糟糕，卸下/更换已标识的存储棒或存储对可以解决此问题。

但是我在想，如果错误是可纠正的，那么就不会有直接的问题-我可以将其视为警告，如果开始出现不可纠正的错误，我准备拉紧棍子/对吗？

ecc

— 大卫·麦金托什（David Mackintosh）
source

取决于您得到错误的频率。由于多种原因，ECC平均每年必须大约纠正一次位错误。如果获取它们的速度明显超过此速度，或者它们是多位错误，则应该担心（我会尽快更换RAM）。

而且，ECC也不是完美的。累积错误可能会通过ECC。将会显示为操作系统崩溃或类似问题。

— 克里斯·S
source

谢谢。与客户协商以资助更换。

— David Mackintosh 2010年