为什么芯片一旦过热就会开始发生故障?


26

一旦芯片过热,它可能会开始发生故障-例如,一旦计算机中的某些或所有部件过热,许多程序可能会开始发生故障。

究竟会发生什么导致芯片过热的故障?

Answers:


26

扩展其他答案。

  1. 更高的泄漏电流:这可能导致更多的发热问题,并容易导致热失控。
  2. 信噪比将随着热噪声的增加而降低:这可能会导致更高的误码率,这将导致程序被误读且命令被误解。这可能会导致“随机”操作。
  3. 掺杂剂随着热量变得更易移动。当芯片完全过热时,晶体管将不再是晶体管。这是不可逆的。
  4. 加热不均匀会使Si的晶体结构破裂。正常人可以通过使玻璃经受温度冲击来体验。它会崩溃,有点极端,但它说明了这一点。这是不可逆的。
  5. 随着温度升高,依赖于带电隔离板的ROM存储器将可能丢失存储器。如果热能足够高,则热能可使电子设备逃逸带电导体。这会损坏程序内存。这在我焊接已经编程的IC时经常发生,这是由于有人使芯片过热而造成的。
  6. 失去晶体管控制能力:有了足够的热能,您的电子就会跳越带隙。半导体是一种带隙小的材料,因此它很容易与掺杂剂桥接,但又足够大,以至于所需的工作温度不会将其转变为间隙小于材料热能的导体。这是一个过分的简化,是另一篇文章的基础,但是我想添加一下并用我自己的话说。

原因更多,但其中原因很重要。


定时故障似乎可能是“更多原因”之一(导线电阻会随着温度的升高而增加,因此受电阻电容限制的定时路径可能会违反其最坏情况下的保证时间)。当然,在较高温度下,DRAM也会更快地泄漏电荷(例如闪存)。没有刷新率补偿的数据可能会丢失。
Paul A. Clayton

13

IC在高温下工作的主要问题是各个晶体管的泄漏电流大大增加。泄漏电流可能会增加到影响设备的开关电压电平的程度,从而使信号无法在芯片内正确传播,并停止工作。它们通常会在冷却后恢复,但并非总是如此。

高温操作(最高300C)的制造工艺采用绝缘体上硅CMOS技术,因为在很宽的温度范围内泄漏量很小。


9

只是一些出色答案的补充:从技术上讲,并不是掺杂剂变得更具流动性,而是固有载流子浓度的增加。如果由于热能的增加,硅或硅的晶格开始“振动”,掺杂剂/载流子的移动性就会降低,这使得电子和空穴很难流过该器件-光子声子散射我相信物理学家会称呼它,但我可能是错的。

当本征载流子浓度增加到超过掺杂水平时,您将失去对器件的电气控制。本征载流子是在掺杂硅之前存在的载流子,半导体的思想是,我们添加自己的载流子以生成pn结和晶体管做的其他有趣的事情。硅的最高温度约为150°C,因此散热RF和高速处理器非常重要,因为在实践中要达到150°C不太困难。固有载流子浓度与器件的截止泄漏电流之间存在直接联系。

就像其他小插曲所显示的那样,这只是芯片失效的原因之一-它甚至可以归结为一个简单的问题,例如引线键合变得太热并从焊盘上弹出,其中有很多事情。


当我说掺杂剂变得更易移动时,我的意思是物理原子,而不是载流子。PN结会随时间和热量而漂移并不再是二极管。其次,当您获得足够高的温度时,热能即会产生与电子相互作用的高能声子,并且会在结构内部产生更高的红外能级,从而使电子具有足够高的能量,从而在传导层和价态层之间跃迁带隙。 。Si之所以达到最高峰,是因为其带隙使得150°C可使电子跳跃。
2011年

是的,我想我们是从不同的起点说同样的话。
西蒙·巴克(SimonBarker)2011年

1
您的解释方式听起来完全像是我完成了器件物理学之后,在采用了一些应用的Quantum和固态器件之后,我的说法有所不同,但是我们都知道这些解释过于简单了。我在回答中加入了一些有关此影响的内容,因为我认为这非常重要,我给了您第一个+1,这是您应得的。这是一个重要的影响,因为它会很快导致热失控。
Kortuk 2011年

8

尽管泄漏电流会增加,但我希望许多基于MOS的设备面临的一个更大问题是,随着设备变热,流经处于“导通”状态的MOS晶体管的电流将减少。为了使设备正常工作,在节点上切换之前,正在切换节点的晶体管必须能够对电路那部分中的任何潜在电容进行充电或放电。降低晶体管的电流通过能力将降低它们对节点充电或放电的速率。如果在电路的另一部分依赖于已切换的节点之前,晶体管无法对节点充分充电或放电,则电路将发生故障。

注意,对于NMOS器件,在确定无源上拉晶体管的尺寸时需要进行设计折衷。无源上拉越大,节点从低到高切换的速度就越快,但是只要节点低,就会浪费更多的功率。因此,许多这样的设备在正确操作的边缘附近工作,并且基于热的故障非常普遍(并且对于老式电子设备而言仍然很常见)。对于常见的CMOS电子产品,此类问题通常不太严重;在实践中,我不知道它们在多GHZ处理器等产品中发挥的作用。


2
这是非常重要的效果,我正要请Kortuk将其添加到他的答案中。处理器的最大Tj规格背后的因素之一是,高于该Tj的处理器可能无法以额定速度工作。这也是为什么更好的散热有助于超频的原因。
安迪

第一段是为什么计算机变热时会停止工作的原因-速度过慢而无法跟上时钟频率。
W5VO 2011年

实际上,还有另一个因素可能在NMOS设备中起作用,尽管我不希望在大多数典型设计中起作用:许多NMOS设备的时钟速度是最低的,这是由于使用或刷新动态存储节点中的数据而产生的在它被泄漏漏掉之前。如果泄漏电流随温度增加,则最小时钟速度也会增加。我怀疑大多数设备都可以在最低时钟速度以上运行,因此提高最低速度不会有问题,但是我不确定。
超级猫

@ Andy,@ W5VO,昨晚我在写我的答案,却忘了中途。夜班确实会损害您的大脑。
2011年

2

为了补充现有的答案,当今的电路对以下两种老化效应很敏感(不仅是这些,而且是小于150nm工艺的主要老化效应):

由于温度会增加载流子迁移率,因此会增加HCI和NBTI效应,但是温度不是NBTI和HCI的主要原因:

  • HCI是由高频率引起的
  • NBTI受高压

这两种硅老化效应(通过影响/劣化绝缘体衬底)对晶体管造成可逆和不可逆的损坏,这增加了晶体管的电压阈值(Vt)。结果,该零件将需要更高的电压来维持相同的性能水平,这意味着工作温度将升高,并且,正如在其他文章中所述的那样,随之而来的是晶体管栅极泄漏的增加。

总而言之,温度不会真正使零件老化更快,而是较高的频率和电压(即超频)才能使零件老化。但是晶体管的老化将需要更高的工作电压,从而使器件发热更多。

必然:超频的后果是温度和所需电压的升高。


1

IC发生不可逆故障的一般原因是,其内部用于在各种元件之间建立互连的铝金属会熔化,断开或短路器件。

是的,泄漏电流会增加,但通常不是问题本身就是泄漏电流,而是引起的热量以及对IC内部金属的损坏。

电源电路(例如电源,大电流驱动器等)可能会损坏,因为在高电压下,当晶体管驱动器快速关闭时,会产生内部电流,从而导致器件闩锁,或者内部功率分布不均匀,从而导致局部短路。加热和随后的金属故障。

大量(1000多次)重复的热循环会由于IC和封装的机械膨胀不匹配而导致故障,最终导致键合线被剥落或划破塑料封装材料,并随后发生机械故障。

当然,仅在给定的温度范围内指定了许多IC参数规格,而这些参数可能不在此范围内。根据设计的不同,这可能会导致故障或不可接受的参数偏移(当IC处于温度范围之外时)-在极高或极低的温度下都可能发生。


铝在660°C(1220°F)的温度下熔化。集成电路在达到此温度之前就已经死亡。
德米特里·格里戈里耶夫

根本没有 在低于此温度时,您肯定会得到不希望有的电行为。过度的加热和热失控,但这实际上不会造成永久性的故障,直到电路的某些部分达到Al(或其他金属)扩散到硅中的温度为止。这个(共晶点)大约在500-600C。其他大多数故障是可以恢复的。电气故障可能会导致其他故障,这些故障可能会给晶体管的栅极或热循环施加过大的电压(这会导致机械故障)。
jp314

我仍然有疑问。例如,IC通常将最高焊接温度指定为300°C左右,因此超过该限制似乎足以造成永久性损坏。
德米特里·格里戈里耶夫
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.