是否可以证明在高温下运行GPU对显卡不利?


11

如果您在80°C至90°C(176°F至194°F)的温度下连续运行图形卡,对图形卡是否真的有害?即会减少卡的寿命吗?可以证明吗?还是只是假设?

我了解GPU的安全关闭通常为90°C(194°F)。


“安全关闭”在很大程度上取决于测量温度的位置以及电路设计的过程和最高温度。我记得前一段时间,某些一代的Intel CPU的最高额定温度为110°C,这使某些硬件爱好者感到担忧,因为他们认为这些芯片会毁坏自己。剧透:他们没有。
Joren Vaes19年

1
我认为这个问题与另一个问题ic产品的寿命作为结温的函数密切相关。这个问题的底线是,每高于室温15°C,IC的预期寿命就会减半。因此,与80°C相比,在90°C下运行图形卡将使其寿命减少约37%(因此,如果80°C下的预期寿命是8年,而90°C下的预期寿命是〜5年)
Harry Svensson

1
Arhennius定律将MTBF / 10'C的上升降低了近50%,但是对于电介质,它们的MTBF则要低得多,例如1000 h @ 85h或105h,因此还需要考虑其他因素,因此我怀疑它们使用了105'C额定电容或更好。
Tony Stewart Sunnyskyguy EE75,19年

Answers:


21

让我们研究故障机理,并观察它们如何受热影响。重要的是要记住,仅因为故障机制随温度发生的更快,GPU不一定会更快地发生故障!如果一个子组件在室温下持续100年,如果变热则仅持续20年,而另一个子组件开始仅持续1年(但不受热量影响),则产品的使用寿命几乎不会随温度。

我不会理会Simeon谈论的自行车问题,因为这不是我的专长。

在板级上,我可以想到一个可能会突然损坏的主要组件:电解电容器。这些电容器变干,并且众所周知,当施加热量时,它们变干得更快。(钽电容器的寿命也往往较短,但我不知道这种变化如何随热量而变化)。

但是硅呢?

据我了解,这里有些事情会导致失败。这里的主要方法之一是电迁移。在电路中,穿过金属碎片的电子实际上将绕原子运动。这会变得非常糟糕,以至于会在导体中造成间隙,从而导致故障。

此图像给出了很好的插图(来自Tatiana Kozlova,Henny W. Zandbergen; Ni纳米桥中电迁移的原位TEM观察):

在此处输入图片说明

该过程随温度呈指数增长,因此,实际上,如果温度较高且电迁移是故障的主要原因,则芯片的使用寿命将减少。

另一机制是氧化物击穿,在电路内部,晶体管将遭受栅极穿通。这也取决于温度。但是,电压在这里的影响更大。

由于掺杂剂的漂移或由于热载流子注入,也存在VT漂移。掺杂漂移随温度而增加(但是这不太可能成为问题,尤其是数字电路,因为这是一个非常缓慢的过程)。我不确定热载流子注入的温度依赖性,但我认为这里的电压再次重要得多。

但是,还有一个重要的问题:这会在多大程度上减少使用寿命?知道这一点后,您是否应该确保图形卡始终保持凉爽?我的猜测是没有,除非在设计阶段出错。设计电路时要考虑到这些最坏的情况,并且在制造过程中,如果将其推到制造商的额定寿命的极限,它们将可以生存。对于人们对电路进行超频的情况:他们经常使用电压来保持电路稳定(因为这可以使电路加速一点),其危害远远超过温度本身。另外,电压的增加将导致电流的增加,这将大大加快电迁移问题。


2
这些都是很棒的图像,我一直想知道电迁移在物理上会是什么样。
Cursorkeys

9

是的,已经证明热量会降解电气组件。金属在加热时会膨胀,焊料(用于电路连接)是金属合金,因此加热时会膨胀。持续的加热和冷却将导致接头不断膨胀和收缩,从而导致接头破裂并最终失效。

                                                      故障率与温度的关系图

显示了阿伦尼乌斯法律如何在热量增加与半导体故障之间建立关联。本文详细介绍了热量对电子元件的影响。它更多地处理电子层面的事物,这超出了我的知识范围


1
我可以相信,由于您所说的膨胀和收缩,循环是不好的,但是在高负载下一直存在高温下是否存在问题?
Colin

我是一名IC设计师,所以我对板级故障模式一无所知,但在我进行维修工作的全部时间内(作为一种业余爱好),由于扩展周期我还没有遇到故障,因此我不得不怀疑它的重要性如何。将其与其他机制进行比较。
Joren Vaes19年

1
@Colin没有“一直高负载”之类的东西;除非您只是在GPU上开采比特币,否则将有几秒钟的负载量。由于冷却必须在GPU上非常有效,这已经导致了上述问题。请参阅:XBox死亡之环。
MarcusMüller19年

@MarcusMüller绝对有。而且,负载不是绝对恒定也没关系。对于循环增量温度很重要。在设计温度下以95-100%的负载(即计算)运行99%的时间的卡比假设在0%到100%的50%的剧烈振荡下,对假设的循环损坏的敏感度要低得多。如果(即游戏)。
Dan M.19年

6

半导体的结温升高与其MTBF降低(平均失效间隔时间)之间的关系是众所周知的。

美光的技术说明谈到了这一点

实际上,一旦结温接近并超过〜125°C,故障率将成倍增加,因此,如果您在低于该温度的条件下工作,则小幅增加可能不是那么关键。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.