syslog中显示“ mce:[硬件错误]:记录了计算机检查事件”。我该怎么办?


19

我已经安装了最新版本的OSSEC(2.8.1),并且还启用了电子邮件通知。而且我收到大量此类通知,称存在硬件错误和有关mce的信息:

OSSEC HIDS Notification.
2015 Apr 04 20:09:22

Received From: Bath-Towel->/var/log/syslog
Rule: 1002 fired (level 2) -> "Unknown problem somewhere in the system."
Portion of the log(s):

Apr  4 20:09:21 Bath-Towel kernel: [ 1873.680872] mce: [Hardware Error]: Machine check events logged



 --END OF NOTIFICATION

那么这到底是什么意思呢?mce代表什么?我应该担心这个明显的硬件错误吗?


操作系统信息:

Description:    Ubuntu 14.10
Release:    14.10

您需要对ossec进行一些阅读,请参阅规则-ossec-docs.readthedocs.org/en/latest/manual/rules-decoders。Web界面很有帮助,
Panther


ossec可能受支持不佳或不在主题范围内,因为它不在ubuntu信息库中
Panther

1
这根本不涉及OSSEC。您收到该通知是因为OSSEC在syslog中发现了“错误”一词。尽管我认为这不是题外话,但您可能会从Unix&LinuxServer Fault获得更多帮助。
埃里克·卡瓦略

4
@ bodhi.zazen在主题上要做的所有事情都是在Ubuntu上运行。现在,这并不意味着您会得到答案。
赛斯2015年

Answers:


23

机器检查异常

机器检查异常(MCE)是一种类型的计算机的硬件错误的,当一个计算机的中央处理单元检测到硬件问题时。

您的计算机遇到硬件错误,内核在缓冲区中记录了一个事件。您可以mcelog用来记录和查看机器检查事件。从mcelog联机帮助页

X86 CPU将CPU检测到的错误报告为机器检查事件(MCE)。这些可能是在CPU缓存,集成内存控制器在主内存中检测到的数据损坏,前端总线或CPU互连上的数据传输错误或其他内部错误。可能的原因可能是宇宙辐射,电源不稳定,冷却问题,硬件损坏,系统运行不合格或运气不好。

CPU可以通过内部错误纠正机制纠正大多数错误。未更正的错误会导致计算机检查异常,这可能会导致进程中断或使计算机崩溃。少数已纠正的错误通常不必担心,但大量可能表明将来会发生故障。

当纠正或恢复的错误发生时,x86内核会将描述MCE的记录写入到通过/ dev / mcelog设备可用的内部环形缓冲区中。mcelog从/ dev / mcelog中检索错误,将其解码为人类可读的格式,并将其打印在标准输出或可选的系统日志中。

如果您没有发现任何崩溃,则可能是错误已成功纠正。不过,我建议您进行安装mcelog以跟踪此类事件:

sudo apt-get install mcelog

事件将记录到/var/log/mcelog。您还可以运行:

sudo mcelog --client

查询mcelog守护程序是否有错误。


2
我不知道为什么MCE错误不只是直接写到系统日志中……可能是一些很好的理由,也许
Xen2050 '16

2
@ Xen2050因为消息的解码取决于体系结构,并且硬件制造商并不总是对其进行记录。即使通过PCIe总线也可能产生该错误。
Mircea Vutcovici

4
@ Xen2050:在我的Fedora 25机器上,MCE消息被写入日志,我可以通过看到它们journalctl -b
Martin Ueding
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.