APEI通用硬件错误


9

在过去的一周中,我的服务器(运行Debian Jessie)已重启两次。在系统日志中,我在每次重新启动之前都会看到此信息,其他任何时候都不会看到:

Aug 15 13:32:58 hoshimiya kernel: [296512.005355] {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
Aug 15 13:32:58 hoshimiya kernel: [296512.005360] {1}[Hardware Error]: It has been corrected by h/w and requires no further action
Aug 15 13:32:58 hoshimiya kernel: [296512.005361] {1}[Hardware Error]: event severity: corrected
Aug 15 13:32:58 hoshimiya kernel: [296512.005362] {1}[Hardware Error]:  Error 0, type: corrected
Aug 15 13:32:58 hoshimiya kernel: [296512.005363] {1}[Hardware Error]:  fru_text: CorrectedErr
Aug 15 13:32:58 hoshimiya kernel: [296512.005364] {1}[Hardware Error]:   section_type: memory error
Aug 15 13:32:58 hoshimiya kernel: [296512.005365] [Firmware Warn]: error section length is too small

进行一些谷歌搜索使我相信,这与我的ECC RAM检测并从错误中恢复有关。它是否正确?如果正在恢复,为什么系统会重新启动?如果可能的话,我想防止系统重新启动。

Answers:


9

看起来您的RAM出现故障,或正在纠正错误。取决于严重程度,听起来这些错误正在影响其功能,并且此后必须重新启动。

从该线程的外观来看,错误部分长度过小的末尾消息位可能是罪魁祸首。

摘录- [PATCH 1/1] efi:cper:支持不同长度的错误部分

某些字段可能会添加到较新的UEFI规范中的“错误”部分。例如,将字段“保留”,“排位号”,“卡句柄”和“模块句柄”添加到从UEFI规范2.3开始的“内存错误”部分。不幸的是,如果检测到内存更正的错误并且结构acpi_generic_data中的字段“修订”小于0x203(UEFI规范2.3),则会出现以下警告消息:

{1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 3
{1}[Hardware Error]: It has been corrected by h/w and requires no further action
{1}[Hardware Error]: event severity: corrected
{1}[Hardware Error]:  Error 0, type: corrected
{1}[Hardware Error]:   section_type: memory error
[Firmware Warn]: error section length is too small

此行为导致此更正的错误无法正确显示。为解决此问题,此修补程序针对不同的UEFI规范版本支持错误部分的不同长度。

并且,此修补程序采用预定义的结构来清除函数cper_estatus_print_section中的重复代码。

通过应用此修补程序,可以在注入错误后正确显示内存校正的错误。

使用Grantley平台和Intel RAStool在v3.14-rc5上进行了测试。

因此,针对该特定错误的补丁似乎正在开发中,并且可能在较新版本的内核中可用。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.