什么是ECC内存，为什么更好？

31

我看过有关在服务器上使用ECC ram的讨论。为什么会更好？

memory ecc

— 托比·艾伦
source

2

问题回答另一个问题：serverfault.com/questions/5817/...

— SH-β

有没有证据表明使用ECC内存是必要的或有益的？好处和作用机制很容易理解，但是我从未听说过有证据证明使用它是合理的。

— 德鲁·史蒂芬斯

遇到这种内存（位）错误有哪些可能的后果？例如，我刚刚关闭了不间断运行5年的在线服务器（使用ECC ram），并且总体而言一切正常，我从来没有收到过托管在那里的客户的投诉，也从未经历过重大的投诉。它的错...与我的台式计算机使用经验相同-很少出现BSOD，但这就是全部吗？:)

— Denis Volovik

@Denis，我想如果您想让人们回答您的问题，您可能需要将其作为一个单独的问题而不是发表评论。

— Toby Allen

28

ECC RAM可以利用奇偶校验位从位的小错误中恢复。由于服务器是共享资源，因此正常运行时间和可靠性至关重要，因此通常使用ECC RAM的价格差别很小。ECC RAM还用在CAD / CAM工作站中，因为小的位错误可能会导致计算错误，而这种错误在设计进行制造时变得更加重要。

— 沃尔多
source

5

任何地方（包括某人的小企业融资计划）中的一些错误可能很小或很大。这一切都取决于什么。

— Zan Lynx

此外，在虚拟化整合时，在错误的位置出现的错误错误可能会导致不止一台计算机停机。

— MikeyB 2011年

1

我只是在等待一家不道德的公司声称他们的会计欺诈实际上只是一个错误。

— Eloff

29

出色的现实世界研究：

野外的DRAM错误：大规模现场研究（pdf）

本文提供了该领域首次大规模研究DRAM内存错误。它基于两年多来从Google服务器群收集的数据，构成了数百万个DIMM天。我们研究中的DRAM涵盖了多个供应商，DRAM密度和技术（DDR1，DDR2和FBDIMM）。

本文提出以下问题：实际中常见的内存错误是什么？它们的统计特性是什么？它们如何受到温度和系统利用率等外部因素的影响？以及它们如何随特定于芯片的因素而变化，例如芯片密度，内存技术和DIMM寿命？

我们发现，在许多方面，该领域的DRAM错误的行为与通常假定的有很大不同。例如，我们观察到DRAM错误率比以前报告的要高几个数量级，FIT率（每十亿个设备小时的时间故障）为每兆位25,000至70,000，每年受影响的DIMM超过8％。我们提供了有力的证据，表明内存错误主要是硬错误而不是软错误，而大多数以前的工作都将重点放在软错误上。我们发现，在影响DIMM现场错误行为的所有因素中，温度的影响很小。最后，与通常担心的情况不同，我们没有观察到任何迹象表明每代DIMM的错误率会随着新一代DIMM的增加而增加。

有趣的是，大多数内存错误都是硬的-硬内存错误是无法恢复的，这意味着必须物理替换为故障内存，而软内存错误可以通过用正确的值覆盖内存来修复。这向我表明ECC的价值是相当有限的。

在存储系统中通常会发生两种错误。第一个称为可重复错误或硬错误。在这种情况下，一块硬件损坏了，并且将始终返回错误的结果。可能会卡住某个位，以便无论写入什么内容，它始终始终返回“ 0”。硬错误通常表示内存模块松动，芯片烧断，主板缺陷或其他物理问题。由于它们是一致且可重复的，因此相对容易诊断和纠正。

听起来好像研究中的所有服务器都使用ECC，所以我们不知道ECC与非ECC错误率。

本文研究了大量商品服务器中DRAM错误的发生率和特征。我们的研究基于两年以上收集的数据，涵盖了多个供应商，世代，技术和容量的DIMM。所有DIMM均配备了纠错逻辑（ECC），以纠正至少一位错误。

— 杰夫·阿特伍德
source

5

+1不错的报告。虽然我不知道非ECC错误率，但我估计非ECC错误率与每GB ECC错误率大致相同。ECC和非ECC DIMM都使用相同的RAM芯片（ECC DIMM仅使用9/8数量的芯片-72个原始内存位来存储64位数据字，而错误率是8/9。大致相同的错误率），而且我认为没有理由将RAM芯片放置在ECC DIMM上与放置在非ECC DIMM上的错误率大不相同。

— 大卫·卡里

9

相对于奇偶校验，ECC具有多个优点。首先，它可以检测和修复单位错误，而无需停止整个系统。多位错误仍然会返回奇偶校验错误，但是除非PC本身有缺陷，否则在PC的生命周期中发生这种情况的几率在天文上很低。ECC就像汽车保险：它为您涵盖了可能会出错的大多数情况，但它无法防止多车堆积。

此处有更多详细信息：ECC内存：服务器而不是台式PC所必需的

— TStamper
source

1

我不同意这篇文章。我认为每个人都应该使用ECC。我本来不会屈服的，但是我想要一个新的Core I7足以让我最终满意。但是，我确定我6GB的RAM到处都有错误。

— Zan Lynx

4

@zan和您“确定”的这些错误，它们有什么后果？

— Jeff Atwood

不要猜测；可纠正的错误应该使可以在OS中记录的MCE无效（Windows中为系统日志，Linux中为/ var / log / mcelog）

— MikeyB

@JeffAtwood：通常不会，但是我偶尔会因为没有明显的原因而出现蓝屏。在系统我有做具有ECC我会看到一对夫妇的单比特错误的每个月。

— Zan Lynx

@JeffAtwood：而且，像我确定的每个人一样，我有时不得不重新安装一个应用程序（Office。Visual Studio。），因为它显然已经疯了。应用程序错误或ECC错误导致磁盘文件损坏？谁知道您是否没有ECC？

— Zan Lynx

5

为简单起见，引自Wikipedia：

计算机系统内部的电磁干扰会导致DRAM的单个位自动翻转到相反的状态。最初认为这主要是由于芯片封装材料中的污染物释放出的α粒子，但是研究[5]表明DRAM芯片中的大多数一次性错误（“软”错误）是由于背景辐射而产生的
...
通过使用包括额外存储位的DRAM模块和利用这些位的存储控制器，可以缓解此问题。这些额外的位用于记录奇偶校验或使用纠错码

— 骗子
source