APEI通用硬件错误

9

在过去的一周中，我的服务器（运行Debian Jessie）已重启两次。在系统日志中，我在每次重新启动之前都会看到此信息，其他任何时候都不会看到：

Aug 15 13:32:58 hoshimiya kernel: [296512.005355] {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
Aug 15 13:32:58 hoshimiya kernel: [296512.005360] {1}[Hardware Error]: It has been corrected by h/w and requires no further action
Aug 15 13:32:58 hoshimiya kernel: [296512.005361] {1}[Hardware Error]: event severity: corrected
Aug 15 13:32:58 hoshimiya kernel: [296512.005362] {1}[Hardware Error]:  Error 0, type: corrected
Aug 15 13:32:58 hoshimiya kernel: [296512.005363] {1}[Hardware Error]:  fru_text: CorrectedErr
Aug 15 13:32:58 hoshimiya kernel: [296512.005364] {1}[Hardware Error]:   section_type: memory error
Aug 15 13:32:58 hoshimiya kernel: [296512.005365] [Firmware Warn]: error section length is too small

进行一些谷歌搜索使我相信，这与我的ECC RAM检测并从错误中恢复有关。它是否正确？如果正在恢复，为什么系统会重新启动？如果可能的话，我想防止系统重新启动。

hardware

— 莫吉克
source

9

看起来您的RAM出现故障，或正在纠正错误。取决于严重程度，听起来这些错误正在影响其功能，并且此后必须重新启动。

从该线程的外观来看，错误部分长度过小的末尾消息位可能是罪魁祸首。

摘录- [PATCH 1/1] efi：cper：支持不同长度的错误部分

某些字段可能会添加到较新的UEFI规范中的“错误”部分。例如，将字段“保留”，“排位号”，“卡句柄”和“模块句柄”添加到从UEFI规范2.3开始的“内存错误”部分。不幸的是，如果检测到内存更正的错误并且结构acpi_generic_data中的字段“修订”小于0x203（UEFI规范2.3），则会出现以下警告消息：
{1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 3
{1}[Hardware Error]: It has been corrected by h/w and requires no further action
{1}[Hardware Error]: event severity: corrected
{1}[Hardware Error]:  Error 0, type: corrected
{1}[Hardware Error]:   section_type: memory error
[Firmware Warn]: error section length is too small
此行为导致此更正的错误无法正确显示。为解决此问题，此修补程序针对不同的UEFI规范版本支持错误部分的不同长度。

并且，此修补程序采用预定义的结构来清除函数cper_estatus_print_section中的重复代码。

通过应用此修补程序，可以在注入错误后正确显示内存校正的错误。

使用Grantley平台和Intel RAStool在v3.14-rc5上进行了测试。

因此，针对该特定错误的补丁似乎正在开发中，并且可能在较新版本的内核中可用。

— slm
source

3

仅供参考，我似乎有一个与此非常相似的问题。

事实证明，解决方案是取出内存，然后重新放置，一切恢复正常。

— 达伦·哈里森（Darren Harrison）
source