现代处理器的逻辑单元中是否具有冗余性以补偿生产故障?


10

现代处理器包含数十亿个晶体管,而且至少在最初的几个月中,新的生产技术通常在良率上存在问题,但我想即使是几年后,有时也会出现故障芯片。

我知道在较大的块(例如缓存)中,可以禁用它的一部分,从而减少可用的内存量(因此您至少可以以较低的价格出售该芯片而不是将其丢弃)是可能的。但是逻辑单元有类似的东西吗?我知道有多个要分发的ALU,但是如果发生生产故障,只是禁用其中一个就可以了吗?还是还有其他备用ALU?因为对我来说,很难相信晶圆厂会在逻辑部件中存在晶体管故障的情况下仅处理每个芯片,而禁用完整的ALU则会大大降低可实现的处理能力。


只是我的猜测。大批量生产的硅片价格相对较低,可以在装入外壳之前对其进行测试,从而可以生产出故障率相对较低的完整芯片。价格的50%以上是纯市场营销。我还认为,同一系列中的许多处理器版本都是在相同的拓扑结构上制成的,仅在某些关闭的功能/内核/缓存(如您所写)方面有所不同,因此制造商在保持较低的产品故障率方面有很大的差距。损坏的单位。但是我怀疑它们是否为同一核心保留了几个保留的ALU。
Cyclone125

我认为最著名的例子是Intel 486SX,它与具有禁用FPU的DX相同。但是我很想听听这是什么现代状态。
pjc50

我对此表示强烈怀疑。以当代处理器的速度实现低级冗余所需的逻辑和设计时间量是不值得的。块级(核心,fpu,高速缓存)冗余或仅禁用块将远远不足以显着提高产量。在目前的处理器价格和晶圆尺寸下,即使达到5%的成品率也可以实现盈利。
Edgar Brown

因此,您认为,只要ALU不可用,它们就会禁用内核。是的,可能是这样。我希望这里的人真的知道。
jusaca

1
是的,他们确实禁用了内核。这是一种称为“合并”的做法。
DKNguyen

Answers:


3

正如其他人所说,很难在内核中看到冗余的ALU逻辑。

内核旨在优化吞吐量。冗余ALU的任何其他逻辑都会影响性能,而增加的面积则会减慢整个内核的速度。随着技术的发展,硅变得更小,使内核变得更快,但实际上使用了相同的知识产权。当有可用的冗余内核空间来提高产量时,为什么要使用冗余的ALU?

2011年,英特尔申请了至少32个内核,16个活动内核和16个备用内核的专利。该专利指出,发生故障的内核将具有较高的温度,从而可以插入备用内核。从本质上讲,可以根据需要动态分配内核。

您可以根据任务的需要分配高功率和低功率内核。或者换掉较高温度水平检测到的不良磁芯。以棋盘状方式操作磁芯以减少热量。

英特尔专利:增强多核处理器的可靠性


从根本上讲,我没有考虑过一个内核内的备用硅片区域可能对性能造成的影响。禁用整个内核似乎是要走的路,因为其他答案也暗示着。
jusaca

5

不符合逻辑。

但是,如果有大容量内存(SRAM),通常会使用“冗余”内存。这些具有特殊的逻辑,可以对它们进行编程以替换一个区域,通常是许多行或列。

在测试过程中检测到故障区域,然后对冗余存储器进行编程以替换故障位置。

但是,必须使用OTP(一次性可编程)位或其他保存其值的存储器来设置此“替换”。因此,这些存储器仅用于具有这种“永久存储器”功能的芯片,或者还必须添加这种编程功能,并因此而产生所有费用。


您认为这些OTP位是通过电子方式编程的,例如燃烧保险丝之类的东西,还是大型制造商必须通过激光微调直接在裸片上进行加工?
jusaca

1
OTP是片上保险丝,可以通过电子方式编程(有点像EEPROM,但可以永久使用)。最终用户还可以将其刻录为序列号,以太网地址,加密密钥等
。– Oldfart

4

对于简单的MCU或典型的单核处理器,肯定不是这种情况。拥有备用模块的成本是不值得的,并且那些处理器不使用最先进的雕刻工艺,也不需要巨大的硅面积,因此产量足够好。

但是,这是针对某些多核处理器完成的,这些处理器的硅面积相当大,并且使用了更精细的雕刻工艺,这会导致更高的缺陷率。在这些处理器上,有缺陷时,可以禁用整个内核(这是相当大的逻辑块,包含的内容远远超过ALU)。然后,该处理器以低端型号出售。

资料来源:https : //skeptics.stackexchange.com/questions/15704/are-low-spec-computer-parts-just-faulty-high-spec-computer-parts


3

我当然不能肯定地回答你的问题。禁用小于1核的单元几乎没有意义,因为它成为可以启用或禁用的非常细粒度的“功能集”,并且所有可能功能的笛卡尔积都会产生大量可能的CPU模型。已经有很多 CPU型号,将它们增加10到100倍肯定是没有帮助的!

另一个方面是,数十亿个晶体管(大部分)用于制造缓存,而对于有缺陷的晶体管,制造商肯定会出售其部分片上缓存已禁用的CPU(例如,AMD Thorton与AMD Barton)。

但我可以告诉你一个我从我信任的人那里听到的轶事。很久以前,我是一个很好奇的超频者。在我的时代,预算超频的首选CPU是AMD Athlon纯血统:

速龙纯种

在安装定制的冷却解决方案时,在安装散热器时必须非常小心,因为它直接压在模具上。如果施加不均匀的压力,则如果先在一个角上施加力,则模具在角上容易破裂而臭名昭著。

这个人做过完全相同的事情,一个角落的很大一部分都消失了,但是CPU奇迹般地运转良好,尽管内存性能大大降低了。角落仅包含L2高速缓存,因此在删除了该部分之后,高速缓存协议就以某种方式解决了现在非常有缺陷的裸片。它可能报告了该部分中所有查询的高速缓存未命中,因此,CPU仅减少到了其L1高速缓存(或仅是L2的一部分),因此在大多数测试中它的速度要慢得多,但在紧密循环中实际上具有相同的性能。

按照相同的思路,可以得出结论,如果一个ALU有缺陷并且能够以某种方式发信号通知它拒绝了工作,则CPU 可能能够依靠其他ALU。这是否由CPU制造商完成是未知的(我对此表示怀疑),但是缓存示例(来自15年前)表明它确实是可行的。


这肯定是非常令人印象深刻的,甚至似乎是某种动态过程,因为系统本身会检测出有缺陷的芯片部分。当问这个问题时,我想到的是生产线中的测试系统进行的检测。但是这个故事确实很有趣;)
朱萨卡(Jusaca
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.