“北桥错误(节点0):探针过滤器目录中的ECC错误”


8

我收到了一封来自用户的电子邮件,该用户担心他的一台服务器上的以下错误表明存在严重问题。麻烦的是,下面的错误是所有我必须去。我通常认为自己是一个体面的Google用户,但在这种情况下,我只能找到一个当用户遇到的关于“探头过滤目录”这个错误其他事件:

[1044 snapshots @ abc]$
Message from syslogd@abc at Sep  8 02:51:51 ...
  kernel:[Hardware Error]: CPU:0 
MC4_STATUS[Over|CE|MiscV|-|AddrV|-|Poison|CECC]: 0xdc0248d0001f010b

Message from syslogd@abc at Sep  8 02:51:51 ...
  kernel:[Hardware Error]:       MC4_ADDR: 0x0000000000010f40

Message from syslogd@abc at Sep  8 02:51:51 ...
  kernel:[Hardware Error]: Northbridge Error (node 0): ECC Error in the 
Probe Filter directory.

Message from syslogd@abc at Sep  8 02:51:51 ...
  kernel:[Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: GEN

据我所知,这只发生过一次。围绕日志查找其他硬件错误只会导致此事件。

我在上面引用的论坛帖子仅以基本告诫用户,如果它只发生一次并且没有引起任何致命问题,就不要担心它。这是我从同事那里得到的相同建议,他们也提到变量太多(即9月8日凌晨2:50运行的是什么?)。

但是,此用户希望确保他们的系统没有问题。以上错误说明什么或与之有关?什么是“探针过滤器目录”?我可以运行哪些测试来使用户放心,这不会标记他们的计算机即将灭亡?

该机器的Linux发行版是Red Hat Enterprise Linux Server 6.4版(圣地亚哥)。



哇,您是对的!我按ctrl + f到该页面,然后发现“ HT Assist,或有时称为探针过滤器”。最后是对错误/起点的某种参考!我有很多事情要做:)
CptSupermrkt

@derobert听起来像答案,不是吗?
Braiam 2014年

@Braiam链接仅说明什么是“探针过滤器” ...它没有说明OP为什么会在那里出现ECC错误,或者它是否指示实际问题。
derobert 2014年

Answers:


1

我没有确切的答案,但是其中一些很熟悉。我不知道什么是探针过滤器目录,但是CptSupermrkt在上面做了解释。

在PCI中,北桥连接到内存和处理器。ECC错误与DRAM相关。每个单词都存储有纠错码位。在读取时会检查它们,而在写入时会对其进行更新。ECC错误是可纠正的还是不可纠正的,表示使用写入的位纠正错误的能力。不可纠正并不表示存在永久性硬件错误。当DRAM开始出现故障时,可能会发生这些情况。

考虑到所有这些,这看起来像是暂时性错误。您可以尝试进行完整的内存测试,但这不太可能找到任何东西。如果DRAM出现故障,则您唯一的纠正措施就是将其更换。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.