Questions tagged «ecc»

大多数计算机在任何情况下都不能容忍数据损坏,因此使用了纠错码(ECC内存)。


3
如何获得Linux中ECC错误的通知?
当配备ECC内存的Linux计算机识别出内存故障时,如何通知我?我对可纠正和不可纠正错误都感兴趣。 如果将消息写入dmesg / syslog,这已经可以了,但是我很想知道要查找的内容 可以安装其他守护程序(例如用于硬盘驱动器的smartmontools) Nagios / Icinga监视将是另一种方式 并非所有要监视的计算机都具有IPMI 感兴趣的系统有Supermicro主板(X9SCM-F),关于HP N54L微型服务器,我只是好奇而已,但不必太在意。所有系统都运行Debian或Ubuntu Linux。
23 linux  ecc 


2
什么是Rowhammer DRAM错误,我该如何处理?
DRAM芯片包装非常紧密。研究表明,相邻位可以随机翻转。 在带有ECC的服务器级DRAM芯片中随机触发错误的可能性是多少(CMU-Intel论文引用了例如,一年中一次故障的未知芯片的编号为9.4x10 ^ -14)? 如何在购买内存之前知道该错误是否已解决? 我该如何应对例如CentOS 7上的租户或非特权用户进行的恶意的特权升级尝试? 参考文献: 利用行锤DRAM错误,解锁对物理内存的访问 翻转内存中的位而不访问它们:DRAM干扰错误的实验研究 Google的PoC回购 零项目撰写
20 security  memory  ecc  bug 

2
购买服务器RAM之前,我需要了解哪些RAM选项?
想要改善这篇文章吗?提供此问题的详细答案,包括引文和答案正确的解释。答案不够详细的答案可能会被编辑或删除。 这是有关服务器内存的规范问题。 我必须购买戴尔R420服务器,并且有各种组合(1600和1333 MHz RDIMMS和UDIMMS)以及性能优化与高级ECC的结合使用,而没有保留。我注意到只有带UDIMM的4gb DIMM,所以我最终将不得不使用16GB RDIMM。 这些选项是什么?我需要了解什么?
18 memory  hardware  ecc 

3
使用ZFS的非ECC内存:一个愚蠢的主意?
我有一台新服务器,并计划将微不足道的2 GB内存升级到最大16 GB。(理论上限制为8 GB,但根据经验显示16 GB是可以使用的。) 一些指南建议ECC内存并不那么重要,但是我不确定我是否相信这一点。 我已经安装了FreeNAS,并计划在我的新硬盘到货后立即添加ZFS卷。对于基于ZFS的NAS跳过并获得非ECC内存会很愚蠢吗?如果有必要,我会咬牙切齿,但如果只是妄想症,那么我可能会跳过它。 ZFS或FeeeNAS是否有任何理由特别需要ECC内存,或者在使用非ECC内存的系统上运行时尤其遭受苦难?
16 memory  zfs  freenas  ecc 

1
我是否应该在带有ECC DIMM的Dell PowerEdge R710 BIOS中使用BIOS“高级ECC”?
我有一个带双Intel Xeon E5503 CPU的Dell PowerEdge R710。它具有96GB(12x8GB)的ECC DIMM。在其BIOS中,内存配置为“高级ECC”。 我的问题是,如果我的DIMM已经是ECC,在BIOS中启用此“高级ECC”模式是否有意义,还是应该切换到“优化”状态? Dell对这些模式的描述如下: 高级ECC模式 此模式使用两个MCH并将它们“绑定”在一起以模拟128位数据总线DIMM。这主要用于实现基于x8 DRAM技术的DIMM的单设备数据校正(SDDC)。在每种内存模式下,基于x4的DIMM均支持SDDC。一个MCH完全未使用,并且此通道中安装的任何内存将在POST期间生成警告消息。 内存优化模式在这种模式下,MCH彼此独立运行;例如,一个可能空闲,一个可能正在执行写操作,另一个可能正在准备读操作。内存可以安装在一个,两个或三个通道中。为了完全实现内存优化模式的性能优势,应填充每个CPU的所有三个通道。这意味着某些“非典型”内存配置(例如3GB,6GB或12GB)将产生最佳性能。除非需要特定的RAS功能,否则这是推荐的模式。 Dell PowerEdge R710系统硬件用户手册(PDF)

5
ECC内存的重要性
ECC内存模块在非关键服务器上是否重要? 我当时正在考虑让自己成为一个玩具专用服务器,以处理许多随机的,非关键性的内容。零星的重启并不重要。我正在寻找一个提供商,但是价格非常便宜。对于任何严重的服务器机箱,它们的硬件听起来都像是在开玩笑:台式机处理器,非ECC RAM,无名机箱,无热插拔SATA HDD等(价格合理,我想)。 我认为ECC内存在任何“严肃”服务器上都是理所当然的,所以我想知道对于“玩具”设备来说这是否大事了。

4
如何检查RAM是否以ECC模式运行?
自从更换处理器以来,我更新了这篇文章,但问题的核心(不幸的是,结果也是如此)是相同的。 我建立了我的第一个FreeNAS盒子,并想使用ECC RAM,因为我想存储关键数据。因为我的预算有限,所以我想选择仍可支持ECC RAM的最经济实惠的解决方案。 经过研究,我发现我需要一个主板,内存和一个支持ECC的CPU。我选择的主板是“技嘉X150M-Pro ECC”,它具有C232芯片组,DDR4和LGA1151插槽。 我还购买了一套由金士顿(Kingston)制造的两个DIMM套件,型号为“ KVR21E15S8K2 / 8”(规格表)。技嘉发布了一份经过测试的内存模块列表,工作的ECC似乎支持我的模块(受支持模块的列表)。 由于预算有限,因此我需要一款价格适中的支持ECC的Skylake CPU。根据英特尔的说法,赛扬G3900确实支持ECC,所以我选择了它。 构建完计算机后,我想验证我的系统是否确实在使用ECC内存运行,并进入了主板的BIOS。从各个互联网站点上,我发现某些主板有一个特殊的部分,可以告诉您ECC是否正常工作,但我的主板似乎没有。我检查了所有菜单,但找不到相似的部分。 在进行了更多研究之后,在Unix&Linux stackexchange上找到了一篇文章,但没有解决我的问题。我尝试了最新的方法memtest86+,据我所知,它甚至不显示值“ ECC”。我尝试了Puget系统使用的较旧的4.20版本,该版本显示“ ECC:off”。但是,在阅读了前面提到的帖子之后,我怀疑它是否说实话(也许就是为什么删除了该功能?)。两种版本都没有读出DIMM的正确速度和延迟,这增加了我对DIMM的怀疑memtest86+。 找出是否ECC是否有效的另一种流行方法是发出dmidecode -t memory命令并读出Total Widthand Data Width。我的结果分别是128 Bits和64 Bits。输出的一部分显示了有关存储阵列的详细信息,该存储阵列的键值对为Error Correction Type: Single-bit ECC。 我期望72 bits使用Total Width,所以我认为它可能与双通道有关,并将内存模块移到了两个相邻的插槽中,这应该防止双通道,但是结果是相同的。下面是完整的输出的dmidecode -t memory。 我什至尝试了Puget系统发布的有趣的C程序,但结果是0,表明没有ECC支持。 现在,我开始怀疑英特尔自己网站上的数据是否正确,并且我的CPU实际上不支持ECC。内存和主板都专门带有“ ECC”商标,因此我可以排除它们。 BIOS版本是否可能需要更新(当前没有更新)以启用ECC,或者ECC实际上已经在起作用,而我只是无法验证它?或者,如果我想运行ECC内存并且Intel的网站错误/具有误导性,我选择的CPU是否错误? 如果我的CPU选择错误,那么“预算ECC CPU”的下一个最佳选择是什么? 更新:我看到一些新迹象表明我的系统实际上可能在启用ECC的情况下运行,并且该dmidecode工具仅报告奇怪的数据。在FreeNAS论坛上,Dusan用户正在使用服务器级硬件(SuperMicro MB,Xeon CPU,Kingston DIMM),并且输出类似128 Bits。但是他写道,他不确定自己是否真的可行。 更新2:正如yagmoth555在他对这个问题的回答中提到的那样,看来我的主板仅支持Xeon处理器的ECC,尽管我认为该说明是从以前的手册中抄袭而来的。我想这意味着我需要研究Xeon处理器。 更新3:我现在购买了Xeon E3-1220v5,它当然支持ECC,应该满足手册中的要求。我再次运行所有测试以检查ECC功能,结果基本相同: 从Puget Systems的评论看来,该ecc_check.c程序似乎无法在Xeon和Core …

1
如何强制ECC错误[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,以使其成为服务器故障的主题。 4年前关闭。 我正在寻找一种方法来强制DRAM DIMM中的ECC错误,以测试与从这些错误中恢复相关的一些代码。我相信英特尔制造的测试夹具价格为几千美元,但我正在寻找便宜的东西。 我尝试购买连接到DIMM的Beta发射器(Strontium 90,0.01uCi),以强制硬件发生“位翻转”。经过两周的运行,我没有收到任何ECC错误的报告。 我的下一步是购买更强的发射器...或看看是否有人解决了此问题。 问题:有没有人找到一种方法来强制进行DIMM中的ECC故障以进行测试(除了找到有故障的DIMM并使用该方法以外,这是我们的旧技术,直到DIMM完全消除虚影为止)。
10 ecc 

1
我应该认真对待ECC可纠正错误警告吗?
我有一堆Sun X2200-M2服务器。这些服务器具有ECC内存。 在其中一些服务器中,我在eLOM中收到有关“检测到可纠正的ECC错误”的警告,例如: # ssh regress11 ipmitool sel elist 1 | 05/20/2010 | 14:20:27 | Memory CPU0 DIMM2 | Correctable ECC | Asserted 2 | 05/20/2010 | 14:33:47 | Memory CPU0 DIMM2 | Correctable ECC | Asserted ...比其他人更频繁。 该特定系统上的内核也会引发EDAC错误,尽管记录ecc事件的频率比eLOM要高得多: EDAC k8 MC0: general bus error: participating processor(local node response), time-out(no …
8 ecc 

2
ECC Chipkill错误:哪个DIMM?
我们经常使服务器中的DIMM损坏,并在syslog中出现以下错误: 5月7日09:15:31 nolcgi303内核:EDAC k8 MC0:通用总线错误:参与处理器(本地节点响应),超时(无超时),内存事务类型(通用读取),mem或i / o(mem访问) ,缓存级别(通用) 5月7日09:15:31 nolcgi303内核:MC0:CE页面0xa0,偏移量0x40,纹理8,校正子0xb50d,第2行,通道0,标签“”:k8_edac 5月7日09:15:31 nolcgi303内核:MC0:CE-无可用信息:k8_edac错误溢出设置 5月7日09:15:31 nolcgi303内核:EDAC k8 MC0:扩展错误代码:ECC chipkill x4错误 我们可以使用HP SmartStart CD来确定哪个DIMM出现错误,但这需要使服务器停产。在服务器启动时,有什么巧妙的方法可以解决哪个DIMM出现故障吗?我们所有的服务器都是运行RHEL 5的HP硬件。
8 linux  hardware  memory  ecc 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.