我看过有关在服务器上使用ECC ram的讨论。为什么会更好?
我看过有关在服务器上使用ECC ram的讨论。为什么会更好?
Answers:
ECC RAM可以利用奇偶校验位从位的小错误中恢复。由于服务器是共享资源,因此正常运行时间和可靠性至关重要,因此通常使用ECC RAM的价格差别很小。ECC RAM还用在CAD / CAM工作站中,因为小的位错误可能会导致计算错误,而这种错误在设计进行制造时变得更加重要。
出色的现实世界研究:
野外的DRAM错误:大规模现场研究(pdf)
本文提供了该领域首次大规模研究DRAM内存错误。它基于两年多来从Google服务器群收集的数据,构成了数百万个DIMM天。我们研究中的DRAM涵盖了多个供应商,DRAM密度和技术(DDR1,DDR2和FBDIMM)。
本文提出以下问题:实际中常见的内存错误是什么?它们的统计特性是什么?它们如何受到温度和系统利用率等外部因素的影响?以及它们如何随特定于芯片的因素而变化,例如芯片密度,内存技术和DIMM寿命?
我们发现,在许多方面,该领域的DRAM错误的行为与通常假定的有很大不同。例如,我们观察到DRAM错误率比以前报告的要高几个数量级,FIT率(每十亿个设备小时的时间故障)为每兆位25,000至70,000,每年受影响的DIMM超过8%。我们提供了有力的证据,表明内存错误主要是硬错误而不是软错误,而大多数以前的工作都将重点放在软错误上。我们发现,在影响DIMM现场错误行为的所有因素中,温度的影响很小。最后,与通常担心的情况不同,我们没有观察到任何迹象表明每代DIMM的错误率会随着新一代DIMM的增加而增加。
有趣的是,大多数内存错误都是硬的-硬内存错误是无法恢复的,这意味着必须物理替换为故障内存,而软内存错误可以通过用正确的值覆盖内存来修复。这向我表明ECC的价值是相当有限的。
在存储系统中通常会发生两种错误。第一个称为可重复错误或硬错误。在这种情况下,一块硬件损坏了,并且将始终返回错误的结果。可能会卡住某个位,以便无论写入什么内容,它始终始终返回“ 0”。硬错误通常表示内存模块松动,芯片烧断,主板缺陷或其他物理问题。由于它们是一致且可重复的,因此相对容易诊断和纠正。
听起来好像研究中的所有服务器都使用ECC,所以我们不知道ECC与非ECC错误率。
本文研究了大量商品服务器中DRAM错误的发生率和特征。我们的研究基于两年以上收集的数据,涵盖了多个供应商,世代,技术和容量的DIMM。所有DIMM均配备了纠错逻辑(ECC),以纠正至少一位错误。
相对于奇偶校验,ECC具有多个优点。首先,它可以检测和修复单位错误,而无需停止整个系统。多位错误仍然会返回奇偶校验错误,但是除非PC本身有缺陷,否则在PC的生命周期中发生这种情况的几率在天文上很低。ECC就像汽车保险:它为您涵盖了可能会出错的大多数情况,但它无法防止多车堆积。
此处有更多详细信息:ECC内存:服务器而不是台式PC所必需的