我们知道,在一个缩略图上CPU几乎有数十亿个晶体管,如果其中一个晶体管坏了怎么办?
CPU是否有任何自动恢复机制?
我们知道,在一个缩略图上CPU几乎有数十亿个晶体管,如果其中一个晶体管坏了怎么办?
CPU是否有任何自动恢复机制?
Answers:
很简单,我们在出售它们之前将它们进行测试并把坏的扔掉。
有很多方法可以做到这一点-不同的人做不同的事情,通常结合使用以下各项:
一些测试正在快速进行,以确保它们足够快。
其他测试涉及一种模式,该模式将芯片中的部分或全部触发器转换为巨大的串行移位寄存器,我们将已知数据计时到那些链中,然后运行芯片一个时钟,然后扫描出新结果并检查它们是否匹配我们的预期结果-自动测试工具会生成最少的“扫描向量”集,以测试芯片上的每个随机门或晶体管-其他向量对ram模块进行特殊测试,
其他人测试外部电线是否正确连接
我们确保它不会消耗不健康的电流
测试时间会花费金钱,有时我们会先对明显的死芯片进行一些简单的测试,然后再将它们包装好以丢弃坏芯片,然后在完成包装后再进行更多测试
进一步说明其他人所说的内容:先进行验证,然后进行芯片分类。
CPU中的晶体管往往会在较高的频率下显示出它们的问题,因此通常先制造一个CPU,然后将其作为几种不同的产品销售。便宜的CPU实际上是昂贵的CPU的损坏版本。另一种选择是禁用CPU的某些部分。例如,AMD用BArton内核制造了处理器。它还出售了带有Thorton内核的处理器。索顿并不是一个新的核心。相反,一半的L2缓存有缺陷并被禁用。这样,AMD在原本会浪费的CPU上进行了一些恢复。
AMD的3核心处理器也发生了同样的事情。它们最初是4个核心处理器,但是其中一个核心被确定为有缺陷的,因此已被禁用。
您的问题的答案是“否”。当前没有针对硬件故障的自动恢复方法。
制造商对其工艺进行工程设计,以使其晶片获得最大的产量(美元)。通过缩小晶体管,它们可以在较小的面积内容纳更多的功能。可以认为这是每个晶片有更多芯片(具有相同功能)。随着芯片尺寸的缩小,您可以从晶圆中获得更多的芯片,但是随着芯片尺寸的缩小,它们中的更多芯片就会变质。制造商接受这一点,并不断推动技术极限以缩小芯片。告诉他们它们位于信封边缘的是坏芯片。
如果一家公司可以将特征尺寸缩小到旧特征尺寸的70%,那么他们可以获得的晶片数量大约是晶片的2倍。如果旧工艺的产率为95%(例如,晶片上100片中有95片优质芯片),而新工艺的产率为75%(200片晶片中有150片优质芯片),则他们赚了钱新过程。
在小型节点上,除非您有内存(例如SRAM),否则每个“晶体管”都是2个门。如果不起作用,则说明您的驱动程序很慢。对于SRAM,如果不通过,则只需“吹”该行。如果晶体管上的两个FETS都失败了,那您将拥有一块非常昂贵的沙子,但我个人从未发生过这种情况。现代的FinFET很小,由于光刻的性质和可能性,存在很多生产问题(主要是麻烦)。您会发现,在新工艺中首先要使用的是FPGA,因为您可以“吹”坏单元并更改布线图。我无法给您这些数字,但是您可以通过x86世界如何进行装箱来猜测,事情很少能顺利进行。
左/右绿色条为鳍,红色为多边形。蓝色是1级有色金属。
商用CPU没有自动恢复机制,但学术界和特殊应用CPU却在浮动。我已经制作了一些使用异步体系结构的专用组件,以解决由于栅极氧化物损坏而造成的时钟问题,尽管栅极氧化物作为热载流子被破坏了,但您只能得到一个非常慢的晶体管。
显然时代已经改变。这个问题有五年历史的答案中有许多不再反映最新的技术水平,因此有些还不准确。
只要IC不过热,硅片上的晶体管和其他设备在制造后就相当稳定。
现在,在现代IC制造过程中已采取以下措施来最大程度地减少缺陷:
处理器正式规范中的编程错误比特定晶体管的故障更有可能发生。
尽管普通的CPU不具备自动恢复功能,但也有一些针对CPU自我复位的工作,以应对宇宙射线。宇宙射线可以在CPU或RAM中沉积足够的能量以引起位翻转。
正如评论中指出的那样,长期以来,关键任务系统一直依靠多个CPU进行验证。该航天飞机,早在1976年,作为一个例子,使用五台电脑,其中四个都运行同一程序和所有飞控决策“投票”,以确保安全。
您是否曾经想过为什么有时以不同的速度出售相同的芯片?并且您是否注意到有时出售相同的GPU芯片架构,但内部单元数量不同?
无法在芯片级修复硬件缺陷,但是随着时间的流逝,设计人员已经学会了应对提高良率的问题。没有预见性,成品率仅取决于制造质量。但是,如果您很聪明,则可以恢复一些不良芯片。
例如,假设您有一个18核芯片设计,它或多或少地独立工作。在测试过程中,您可以对完美的芯片进行分类并将其作为A18型号发布。大多数发生故障的芯片只有一个错误,因此只要禁用了有故障的内核,它们就可以正常工作。您以较低的价格将它们作为A17型号出售,而具有两个不良核心的那些将以更低的价格作为A16型号出售。
这同样适用于芯片的速度等级。完美制造的芯片将能够以超出设计规格的速度运行,但是有问题的芯片可能无法运行。这些以较低的速度规格出售。
该方法将显着提高总产量,因此非常普遍。例如,PlayStation 3的硬件中有8个SPE单元,但始终会禁用其中一个以解决良率问题。
通常不,您会通过芯片屏幕覆盖坏的晶体管,并且此后您会期望损失的百分比相对较小。芯片业务已经存在了数十年,他们掌握了许多管理技巧(是的,有时其中的技巧之一就是放出不良零件并免费更换它们,或者让客户不满意)。
对于辐射硬化的环境(空间),您可能需要三票表决,实际上每个“位”都有三位票数才能产生一个。只需三分之二的投票即可确定该位设置。因此,其他三分之一的晶体管可能会变坏,最终总剂量会变大。但最主要的问题是单个事件的不适。这些芯片和系统是为从上到下,硅,硬件,软件等这些环境而设计的。它们使用的是久经考验的真正技术,而不是最前沿的技术,因此晶体管的数量和尺寸是几年前的。
预计COTS会经常出现打ic和失败。