我如何找到哪个内存出现CE错误?


12

/var/log/kern.log

kernel: [13291329.657499] EDAC MC0: 48 CE error on CPU#0Channel#2_DIMM#0 (channel:2 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)

这是edac日志,内存之一有ce错误。

我已阅读edac doc

Dual channels allows for 128 bit data transfers to the CPU from memory.
Some newer chipsets allow for more than 2 channels, like Fully Buffered DIMMs
(FB-DIMMs). The following example will assume 2 channels:


            Channel 0   Channel 1
    ===================================
    csrow0  | DIMM_A0   | DIMM_B0 |
    csrow1  | DIMM_A0   | DIMM_B0 |
    ===================================

    ===================================
    csrow2  | DIMM_A1   | DIMM_B1 |
    csrow3  | DIMM_A1   | DIMM_B1 |
    ===================================

并找到错误通道:

$ grep "[0-9]" /sys/devices/system/edac/mc/mc*/csrow*/ch*_ce_count
/sys/devices/system/edac/mc/mc0/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch2_ce_count:144648966
/sys/devices/system/edac/mc/mc0/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch2_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch1_ce_count:0

并应mc0/csrow0/ch2,作为文档时,DIMM应DIMM_C0,并且可以通过发现 dmidecode

但是我找不到这个DIMM,所以我不知道哪个内存有问题:

$ dmidecode -t memory | grep 'Locator: PROC'
        Locator: PROC 1 DIMM 2A
        Locator: PROC 1 DIMM 1D
        Locator: PROC 1 DIMM 4B
        Locator: PROC 1 DIMM 3E
        Locator: PROC 1 DIMM 6C
        Locator: PROC 1 DIMM 5F
        Locator: PROC 2 DIMM 2A
        Locator: PROC 2 DIMM 1D
        Locator: PROC 2 DIMM 4B
        Locator: PROC 2 DIMM 3E
        Locator: PROC 2 DIMM 6C
        Locator: PROC 2 DIMM 5F

有12个插槽,其中9个插槽有内存。

那么我怎么知道哪个内存有问题呢?


补充:

System Information
        Manufacturer: HP
        Product Name: ProLiant DL180 G6

这是什么类型的服务器?服务器制造商和型号。
ewwhite 2014年

@ewwhite,您好,我用系统信息更新了问题。
Tanky Woo 2014年

您正在运行什么操作系统?
ewwhite 2014年

@ewwhite OS是Ubuntu 12.04,内核是3.10.20
Tanky Woo 2014年

哦,很抱歉... 该硬件上确实不支持Ubuntu,因此您将无法通过不使用RHEL / CentOS / Debian / SuSE来正确监视它的能力……
ewwhite 2014年

Answers:


8

您的DIMM可能有问题- Locator: PROC 1 DIMM 5F

CPU#0Channel#2_DIMM#0表示:

PROC 1, 
1D,2A = Channel 0  
3E,4B = Channel 1
5F,6C = Channel 2

5F = DIMM 0
6C = DIMM 1

编辑:

当询问问题时,更多的信息总是更好的……让服务器制造商和模型可以简化此过程:

这是HP ProLiant DL180 G6 Quickspecs中的内存图:

在此处输入图片说明

我的建议是CPU插槽#1中的DIMM正确...但这是HP硬件。 您无需猜测!!

您应该使用HP的管理代理,因为它们可以警告并提供有关硬件运行状况和状态的特定于平台的详细信息...

[root@veloce ~]# hpasmcli
HP management CLI for Linux (v2.0)
Copyright 2008 Hewlett-Packard Development Group, L.P.

--------------------------------------------------------------------------
This server ProLiant DL180 G6  , is a Proliant 100 Series Server.
NOTE: Some hpasmcli commands may not be supported on 100 series servers.
      Type 'help' to get a list of all top level commands.
--------------------------------------------------------------------------
hpasmcli> show dimm
Cartridge #:    0
Processor #:    1
Module #:       2
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

Cartridge #:    0
Processor #:    1
Module #:       1
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

Cartridge #:    0
Processor #:    1
Module #:       4
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

Cartridge #:    0
Processor #:    1
Module #:       6
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

谢谢,有没有相关文件?
Tanky Woo 2014年

@TankyWoo是的,请参见上文。
ewwhite 2014年

PROC1 DIMM 5F没有内存。因此,您是不是真的确定了插槽?我应该添加一个hp deb镜像并安装hpamscli以获得正确的DIMM?
Tanky Woo 2014年

我有安装hp-health,并且StatusN/A一样粘贴的输出。
汤尼·胡

运行hplog -v以检查HP IML日志中的条目。
ewwhite 2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.