这取决于您的服务器硬件。白盒或Supermicro系统与Dell,HP或IBM的处理方式不同。
高端服务器的增值功能之一是具有一定级别的硬件/ OS集成。Nicer服务器将报告您在管理代理和/或带外管理解决方案(ILO,DRAC,IPMI)中正在寻找的内容。
您应该使用硬件平台固有的工具。
摘自运行Linux的HP ProLiant服务器和HP Management Agent:
Trap-ID=6056
ECC Memory Correctable Errors detected.
和
Trap-ID=6052
Advanced ECC Memory Engaged
或更严重的
Trap-ID=6029
A correctable memory log entry indicates a memory module needs to be
replaced.
或最坏的情况...忽略错误6天,直到服务器由于RAM损坏而崩溃
0004 Repaired 22:21 12/01/2008 22:21 12/01/2008 0001
LOG: Corrected Memory Error threshold exceeded (Slot 1, Memory Module 1)
0007 Repaired 02:58 12/07/2008 02:58 12/07/2008 0001
LOG: POST Error: 201-Memory Error Single-bit error occured during
memory initialization,
Board 1, DIMM 1. Bank containing DIMM(s) has been disabled.
0008 Repaired 19:31 12/08/2009 19:31 12/08/2009 0001
LOG: ASR Detected by System ROM
这些已记录,加上SNMP陷阱和电子邮件已发送。
通常,您会在内核环形缓冲区中看到计算机检查异常,因此您可以检查dmesg
或运行mcelog。在我使用不带IPMI的Supermicro齿轮的经验中,这并不能解决所有问题,而且我仍然遇到RAM错误贯穿裂缝并导致停机的问题。不幸的是,这导致了在系统部署之前过时的RAM老化策略。