在/var/log/kern.log
:
kernel: [13291329.657499] EDAC MC0: 48 CE error on CPU#0Channel#2_DIMM#0 (channel:2 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)
这是edac
日志,内存之一有ce
错误。
我已阅读edac doc
Dual channels allows for 128 bit data transfers to the CPU from memory.
Some newer chipsets allow for more than 2 channels, like Fully Buffered DIMMs
(FB-DIMMs). The following example will assume 2 channels:
Channel 0 Channel 1
===================================
csrow0 | DIMM_A0 | DIMM_B0 |
csrow1 | DIMM_A0 | DIMM_B0 |
===================================
===================================
csrow2 | DIMM_A1 | DIMM_B1 |
csrow3 | DIMM_A1 | DIMM_B1 |
===================================
并找到错误通道:
$ grep "[0-9]" /sys/devices/system/edac/mc/mc*/csrow*/ch*_ce_count
/sys/devices/system/edac/mc/mc0/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch2_ce_count:144648966
/sys/devices/system/edac/mc/mc0/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch2_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch1_ce_count:0
并应mc0/csrow0/ch2
,作为文档时,DIMM应DIMM_C0
,并且可以通过发现 dmidecode
:
但是我找不到这个DIMM,所以我不知道哪个内存有问题:
$ dmidecode -t memory | grep 'Locator: PROC'
Locator: PROC 1 DIMM 2A
Locator: PROC 1 DIMM 1D
Locator: PROC 1 DIMM 4B
Locator: PROC 1 DIMM 3E
Locator: PROC 1 DIMM 6C
Locator: PROC 1 DIMM 5F
Locator: PROC 2 DIMM 2A
Locator: PROC 2 DIMM 1D
Locator: PROC 2 DIMM 4B
Locator: PROC 2 DIMM 3E
Locator: PROC 2 DIMM 6C
Locator: PROC 2 DIMM 5F
有12个插槽,其中9个插槽有内存。
那么我怎么知道哪个内存有问题呢?
补充:
System Information
Manufacturer: HP
Product Name: ProLiant DL180 G6
这是什么类型的服务器?服务器制造商和型号。
—
ewwhite 2014年
@ewwhite,您好,我用系统信息更新了问题。
—
Tanky Woo 2014年
您正在运行什么操作系统?
—
ewwhite 2014年
@ewwhite OS是
—
Tanky Woo 2014年
Ubuntu 12.04
,内核是3.10.20
哦,很抱歉... 该硬件上确实不支持Ubuntu,因此您将无法通过不使用RHEL / CentOS / Debian / SuSE来正确监视它的能力……
—
ewwhite 2014年