Answers:
在CPU停止运行之前,可能只需要一个晶体管发生故障-并且由于现代CPU中有数百万个晶体管,您可能会问为什么它不经常发生。
而且,根据晶体管在CPU中的位置,效果可能会有所不同,但是我认为我们不能期望性能出现逐级下降:在执行特定指令之前,可能不会注意到ALU的故障,并且一些指令将不那么频繁地执行。
因此,当晶体管发生故障时,CPUS突然死亡。这可能是由于计算机芯片中的应力过大而引起的,因此时间可能是一个因素。
过多的热量会导致形成晶体管的硅中的微小杂质扩散并改变工作参数。热量是简单操作晶体管所不可避免的后果,因此缺乏冷却可能最终导致故障。
其他原因可能包括CPU芯片封装内部的互连故障,但是制造商一直在寻找具有更可靠互连和更好散热的改进封装方法。
在这里所述的其他原因中,内部连接也可能断开。几种不同的技术用于将内部“芯片”引线与外部封装引线绑定在一起,所有这些技术都有可能发生故障。
此类故障可能是过热的结果,并且即使在没有过热的情况下,故障的可能性也会随着“热循环”而增加。故障可能是间歇性的(尽管通常会在发生故障时导致严重的崩溃),但是随着系统的循环,故障会变得越来越持久。
这种故障模仿了由于包装/插座连接不良等导致的故障。
[添加:] 而且我注意到没有提及“晶须”。IC和很小的印刷电路的一个大问题是金属的“晶须”,这些晶须从电镀布线中生长出来,并且相邻的“导线”之间短路。当您取出所有铅时(尤其是“ RoHS”),这尤其成问题,因为通常将铅添加到线合金中以防止晶须。当然,随着温度的升高,这个问题变得更加严重。
关于“晶体管老化”主题的有趣文章发表在IEEE的Spectrum杂志(http://spectrum.ieee.org/semiconductors/processors/transistor-aging)中。它列出了几种可能导致单个晶体管发生故障的基本机制,实际上可能会将完整芯片的计算能力降低到马铃薯(或砖头)的计算能力。