是否需要为服务器级硬件预装RAM?


31

考虑到许多服务器级系统都配有ECC RAM的事实,部署DIMM之前先对其进行烧录是否必要或有用?

我遇到了一个环境,其中所有服务器RAM都通过冗长的老化/测试过程来放置。这有时会延迟系统部署,并影响硬件的交货时间。

服务器硬件主要是Supermicro,因此RAM来自各种厂商。并非直接来自制造商(如Dell PoweredgeHP ProLiant)

这是有用的练习吗?根据我过去的经验,我只是直接使用供应商RAM。POST内存测试不应该捕获DOA内存吗?在DIMM实际出现故障之前,我已经对ECC错误做出了回应,因为ECC阈值通常是保修放置的触发条件。

  • 你烧机内存?
  • 如果是这样,您使用什么方法进行测试?
  • 它在部署之前是否发现了任何问题?
  • 与不执行该步骤相比,预烧过程是否带来了额外的平台稳定性?
  • 向现有运行中的服务器添加 RAM 时该怎么办?

Answers:


25

我找到了金士顿(Kingston)的一份文件,详细说明了它们如何与服务器内存一起工作,我相信对于大多数知名制造商来说,此过程通常是相同的。内存芯片以及所有半导体设备都遵循一种特殊的可靠性/故障模式,即“浴盆曲线”:

在此处输入图片说明

时间以横轴表示,从工厂发货开始,一直持续到三个不同的时间段:

  • 早期故障:大多数故障发生在早期使用期间。但是,随着时间的流逝,故障数量会迅速减少。以黄色显示的“早期生命失败”期限约为3个月。

  • 使用寿命:在此期间,失败极为罕见。使用寿命以蓝色显示,估计为20年以上。

  • 报废故障:最终,半导体产品会磨损并发生故障。报废期显示为绿色

现在,由于金斯敦(Kingston)指出,前三个月会出现高失败率(在这三个月之后,该设备被认为是良好的,直到15至20年后才停产)。他们使用称为KT2400的设备设计了一项测试,该设备在100摄氏度的高压下对服务器内存模块进行了残酷的测试24小时,通过该设备,每个DRAM芯片的所有单元都可以连续使用;如此高的压力测试会导致模块至少老化三个月(如在大多数模块出现故障的关键时期之前指出的那样)。

结果是:

2004年3月,金士顿开始了为期六个月的试用,其中100%的服务器内存在KT2400中进行了测试。严密监视结果以衡量故障的变化。2004年9月,在对所有测试数据进行汇总和分析之后,结果表明故障率降低了90%。这些结果超出了预期,代表了已经是同类产品中最高水平的产品线的重大改进。

那么,为什么在内存中进行刻录对于服务器内存没有用?简而言之,因为它已经由您的制造商完成!


10
芯片制造商,甚至服务器供应商都可能测试某些芯片。但是,最近仅对mst组件进行了样品测试,以降低成本。即使您的芯片或整个DIMM经过了测试,也无法告诉您在组装或运输过程中是否以某种方式对触点或PCB进行了调整或弄乱。我们已经对MemTEst86进行了老化测试,以发现来自两个不同服务器的内存问题,以及来自两个不同的“第1层”服务器供应商的现成的问题。如果他们将其投入生产,ECC可能会拯救我们,但无提示的数据库损坏也可能是结果。
rmalayter

7
该浴盆曲线不仅适用于半导体。质量控制的任何程度内置的大多数组件遵循它:硬盘驱动器,固态硬盘,电源(因为电容为主),风扇等
voretaq7

6
这就是我从不购买电子产品延保的原因之一。该设备(或组件)要么会在前几个月出现故障,要么会在其整个生命周期内持续使用。这也说明了为什么尽早清除坏苹果如此重要,以使您可以尽快开始航行。
Atari911 2013年

@rmalayter因此,无论如何,您还是会提倡刻录RAM?
ewwhite 2013年

2
@ewwhite是的,我会测试。启动memtest86并检查384 GB RAM只需要几个小时。出于同样的原因,我们也使用IOmeter在所有存储子系统中进行刻录。在过去的几年中,即使在安装过程中最初运行良好,在老化过程中还是有几个RAID控制器或驱动器在我们身上死了。有时这是一件不好的固件,有时是RAID控制器上的高速缓存RAM出现故障,有时是“谁知道-RMA!”
rmalayter

30

没有。

烧入硬件的目的是将其强调到催化组件故障的地步。

用机械硬盘执行此操作将获得一些结果,但是对于RAM并不会做很多事情。该组件的本质是,与读取和写入RAM(即使是在其最大带宽下持续数小时或数天)相比,环境因素和使用年限更可能是导致故障的原因。

假设您的RAM质量足够高,以至于您第一次真正使用它时焊料不会熔化,那么老化过程将不会帮助您发现缺陷。


15

我们购买刀片,并且通常一次购买相当大数量的刀片,因此,我们会在网络端口准备就绪/安全之前,将它们放入并在DAYS内安装它们。因此,我们用这段时间约24小时使用memtest,如果在整个周末使用memtest,则有时会更长-完成此操作后,我们将关闭基本ESXi,并准备好IP,以便在网络启动后即可应用其主机配置文件。因此,是的,我们进行了测试,更多地是出于机遇,而不是必要,但它之前已经捕获了一些DOA DIMM,而且不是我亲自进行的工作,因此我无需花费任何精力。我支持


3
只要有机会,“机会测试”就很有意义。如果要延迟部署,我可能会冒一个坏的DIMM和ECC灯的风险:-)
voretaq7 2013年

2
如果将测试构建到部署计划中,那么您就已经为自己付出了很多时间,如果您尽可能快地完成所有工作,则以后会受到批评。
力所能及

@ Chopper3那么,如果您正在制定政策,是否总是如此?永远不会吗?还是在可能的时候做?
ewwhite 2013年

@ewwhite-我会说后者,尽管我们倾向于将其设计到标准部署计划中,所以每次都很有可能。
Chopper3

11

好吧,我想这完全取决于您的流程。在将MemTest86放入系统(服务器或其他方式)之前,我总是在其上运行MemTest86。在系统启动并运行后,由内存故障引起的问题可能很难解决。

至于实际上“压力测试”内存;我什至还没有看到为什么这很有用,除非您出于超频目的进行测试。


MemTest86告诉您什么?使用此方法将RAM安装到服务器之前,是否发现RAM问题?
ewwhite

4
我发现MemTest86 +有很多错误,BIOS和Windows内存诊断程序找不到这些错误。我强烈推荐它。是的,ECC将发现相同的错误,但是memtest可以帮助您提前发现所有错误。
Owen Johnson

6
MemTest会通知您内存内部是否有任何缺陷。它通过在内存中存储字节模式和随机字节组来尝试触发错误,从而实现此目的。该程序可以运行“通过”以告知您内存是否良好,但是为了确保正常运行,我通常会隔夜运行多次。MemTest的好处是,它可以在我部署系统之前告诉我内存是否不足。它多次触发了RMA,并为我省去了很多麻烦。一旦部署了机器,就会在@ss上困扰RMA内存。
Atari911 2013年

2
@OwenJohnson通常,当您运行MemTest86(+)时,您希望在将计算机投入生产之前触发这些ECC错误:-)
voretaq7 2013年

6

我没有,但是我见过这样做的人。虽然我从未见过他们从中获益,但我认为这可能是宿醉或迷信。

就个人而言,我喜欢您,因为ECC错误率对我更有用-假设RAM不是DOA,但无论如何您都知道。


6

对于非ECC内存,在memtest86 +上运行30分钟非常有用,因为在系统运行时通常没有可靠的方法来检测误码。
蓝屏筛选不被认为是可靠的方法...
而且,只有在系统看到一些全内存负载之后,并且仅当该RAM中的数据是已使用的代码并且然后坠毁。数据损坏可能在很长一段时间内都不会引起注意。

对于ECC ram,它不会做任何事情,内存控制器本身不会做,所以这实际上没有任何意义。只是浪费时间。

根据我的经验,坚持坚持锻炼的人通常都是老家伙,他们总是这样做,并且出于习惯而不做事,却没有真正地把事情做对。
或者他们是年轻人,遵循那些老人编写的规定程序。


不好的知识,世代相传?
ewwhite

@ewwhite是的,据我所知。而且我有一个Bsc。计算机硬件技术,所以我应该知道我在说什么:-)
Tonny

线程中显示的所有实际发现错误的人的事件除外。另外,如果不是很明显,则在将服务器投入生产之前或在以24x7运行的DB服务器上更换ram之前,先进行零件更换是有区别的。除非假装这是一个“增长错误”,并且其他所有人都已经老了并且从事着狂热的东西,但是如果将生产服务器离线,它仍然会造成损失。
Florian Heigl 2014年

1
@FlorianHeigl我不赞成为此目的在RAM中进行刻录,但我绝不赞成将服务器投入生产,除非对服务器进行至少24小时的压力测试。RAM通常不是问题。片状HDD,RAID控制器,IPMI卡,电源,CPU,VRM ...我已经看到了。(通常,服务器在初始安装后仍然可以正常运行。只有在负载和/或健康状况下才能真正正常工作。)
Tonny

3

这取决于。

如果您要部署5万个新RAM,并且您知道该特定硬件在运行不到一天后的故障率为0.01%,那么从统计上讲,其中有许多在第一天就会出现故障。燃烧是为了抓住这一点。在如此大规模的部署中,预计会出现故障,而不是例外情况。

但是,如果仅部署数百个项目,则很可能需要统计数据,因为您很不幸会出现故障。


你有一点。Btu面对现实,我们大多数人永远都不会做那么大的部署。(除非您正在构建新的Google数据中心。)我们大多数人通常最多同时部署5到10台服务器。我个人最大的任务是16个ESX节点(4个4节点群集),每个节点都装有8个DIMM。那是3年前,此后1个DIMM发生故障(2个月前)。必须替换那些相同机器上的5个电源。一个星期后的第一个。但是由于这些是HP Proliant,因此我们可以预料到这一点。(HP和电源。。不要让我开始...)
Tonny 2013年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.