应用程序可以破坏显卡吗?


15

快速说明:我知道这是一个游戏开发问答网站,但我想你们中的大多数人都知道并具有图形卡的经验,因此我向您解决了这个问题。如果您认为这完全是题外话,请引导我访问适当的网站/论坛。编辑:实际上,这与gamedev有关的:如果错误的代码可能导致卡过热或损坏,那么游戏开发人员应意识到这一点,并确保其应用程序不这样做。

这似乎是一个怪异或愚蠢的问题,但实际上是否有可能编写这样的图形渲染应用程序以任何方式破坏图形卡?

让我问这个问题的直接原因是(我不足为奇)我自己的破损显卡。维修完后,军人说他们测试了各种应用程序(游戏),并且运行良好。但是,当我启动自己的应用程序(延迟阴影演示)时,它将其加热到100摄氏度以上。因此,我的卡终究没有被修复,但重要的是,问题似乎仅在运行自己的应用程序时发生。

我在上面玩过各种需要GPU的游戏(例如《孤岛危机》),并且经常将其推到极限甚至更高(设置太高以至于游戏以5 FPS的速度运行),还有一些基准测试...所以我给出了我的卡很多次都无法承受(因此FPS低),但工作量却很大,但从未达到危险的温度。但是我自己的应用程序设法实现了这一点(至少在关闭v-sync时)。:P因为这只是我自己的应用程序,所以我认为不是冷却系统不好的原因。

因此,我想问-您是否认为(或也许知道)是否可以通过某些恶意代码破坏显卡(以任何方式,而不仅仅是过热)?

更新:

乔·斯温德尔说,过热可能是问题所在(嗯,它肯定会损坏卡)。但是(在任何情况下)适当的冷却系统是否不应阻止这种情况的发生?

北方公司指出了另一个问题。如果我理解正确,FPS受CPU和GPU约束(是吗?)。因此,低FPS可能表示较高的CPU负载或较高的GPU负载。但是,再次重申-即使显卡“一直以100%的速度使用”,合适的散热系统也不能防止GPU过热吗?


大多数游戏都不会充分利用GPU的潜力-它们将在许多方面与CPU绑定。但是,您自己的应用程序可能在CPU方面无所事事,这将导致GPU使用率大大提高。简而言之,GPU并非总是100%被使用。这就是为什么您现在不希望购买二手GPU的原因-它可能已用于比特币挖矿。
jmegaffin 2014年

6
@Boreal我对此表示强烈反对。如果您从优质的电路板制造商处购买GPU,则该GPU 设计为始终100%使用,并且已设置了冷却和时钟速度以确保在这些条件下稳定。现在,如果您有一些未正确安装的售后散热器,或者您将卡超频到了危险的水平,那就是另一回事了。
内森·里德

“但是,一个适当的冷却系统是否不应该阻止这种情况的发生呢?” -说您的GPU的风扇,散热器和排气口积满灰尘,因为您没有照顾好计算机。这样,即使是高端零件,也肯定会过热和破裂。希望它只会在发现热量后关闭并在损坏之前重新启动,但是您真的不想打赌。
肖恩·米德迪奇

仅供参考,在危险的过热情况下,计算机应该自行关闭。是否有可能在您的计算机上将其禁用?
理查德·廷格

SeanMiddleditch,“正确”的意思是,其中包括清洁的,功能齐全的冷却系统。理查德·廷格(RichardTingle),至少我自己没有禁用它。但是我的意思是我的问题是一个普遍的问题,而不是为我的具体情况寻找解决方案。
NPS

Answers:


32

确保GPU不会过热不是应用程序的责任,如果过热则不是应用程序的错。

如果GPU没有适当的散热,则可以,运行3D应用会将其加热到危险水平。我不知道为什么您的应用程序会这样做,而《孤岛危机》却不这样做,但这意味着该卡的散热不足,并且/或者它被弄乱了(超频,或者其他出厂设置/驱动程序已更改)。

除了过热之外,我还不知道软件会以其他任何方式物理损坏正在运行的芯片。确实不应该这样;这将是一个非常严重的设计失败。


1
因此,根据您所说的(作为程序员),我应该完全不关心我的应用程序会产生多少GPU负载(和发热)(只要它运行平稳)?
NPS

11
@NPS对。您关心的是GPU负载,只要它影响帧速率(以及移动设备上的电池寿命),但是关心它如何影响温度不是您的责任-这是驱动程序/操作系统要担心的。如果应用程序使GPU过热,则无法正确冷却,并且/或者驱动程序的动态频率缩放出现问题。
内森·里德

4
+1是用户的工作,以确保其硬件满足要求(并且“不影响游戏过程中的融化”被视为要求),而硬件/驱动程序的工作则是尽最大努力保护卡不受损坏。应用程序应该(并且必须)依赖于此,它无能为力。
托马斯

我想写一份制造商道德宣言:当您购买给定规格的硬件时,您应该能够在包装上规定的所有条件下访问此规格(通常规定为0到40摄氏度)。并且不要遭受愚蠢的热调节,否则一个好的试验应该证明我被包装上的虚假声明抢走了我的钱。
v.oddou 2014年

@NPS“因此,根据您所说的(作为程序员),我应该完全不在乎我的应用程序会产生多少GPU负载(和发热)(只要它运行平稳)?” -是的,您应该关心负载,而不是过热。只需确保较低的设置产生较低的负载,从而减少冷却噪音即可。由于有时我会用电池玩游戏,因此我会在Steam上投票打败那些在不做任何事情的情况下会消耗100%CPU和GPU的游戏,而我并不是唯一的游戏。
彼得

24

它发生在野外。

2010年的《星际争霸2》出现了一个问题,即菜单屏幕上的帧速率没有上限,这给图形卡带来了奇怪的负担,从而破坏了某些厂商的卡,其热保护不足。

GPU本身的设计和制造缺陷也可能导致卡在负载下自行拆卸。G84 / G86移动GPU的焊点在可接受的温度负载下破裂,并最终破裂。我们还拥有臭名昭著的XBox 360死亡红环,它在焊接和扩展方面存在类似的热问题。

以上所有都是硬件缺陷和散热设计不足的混合,并由软件负载放大。


6
我立刻想到了星际争霸。尽管可以说星际争霸暴露了带有大量图形卡的错误,然后提供了解决该错误的方法,而不是星际争霸实际上是有过错。并不是说拥有被毁卡的人会太在意这种区别
理查德·廷格

1
曾几何时,一代不聪明的监视器可能会因软件向CRTC寄存器中输入错误值而破坏其反激式变压器。未能添加的第三个原因是,速度竞赛使许多制造商走了弯路,很多时候,卡的坚固度不足以100%制成
Patrick Hughes 2014年

9

您的问题比您写的要复杂得多。我会说一般的问题是“软件可以破坏硬件吗?”的答案是肯定的。

请注意,从理论上讲,并不是所有的硬件都可以通过软件命令破坏的,但是最终,软件要做的是将电信号发送到非常精密的硬件组件。通常,硬件组件越精密,以非设计方式处理时,其损坏的可能性就越大。

硬件破裂有很多有趣的方式,但让我们考虑一下过热:处理工作会产生热量,而这些热量必须散布在某个地方。根据卡的散热特性,机箱中的气流以及房间的整体温度,从系统中散发的热量可能大于或小于由系统散发的热量。

如果您要求视频卡进行产生的热量多于可以有效散发的热量,则芯片温度将会升高。如果继续进行下去,温度将上升到高于安全操作温度的水平,并且芯片会断裂,失去魔力烟雾,甚至可能引起火灾。您刚刚损坏了视频卡,希望您满意。

现在,可以编写执行此操作的软件吗?我很可能不会。您编写的任何(用户级)程序都不会直接与视频卡对话。有很多旨在防止这种情况发生的防护措施,它们都必须失败,因此渲染程序最终会烧毁您的房屋。

  1. 通常,散热器和风扇经过精心设计,即使在炎热气候下通风不良的情况下(在制造商指定的工作范围内),它们也可以舒适地散发卡片产生的最大热量。

  2. 如果发热量大于散热量,那么第一道防线就是驱动力。大多数驱动程序将检查GPU的核心温度,如果温度上升,则驱动程序可能会限制其发送给GPU的指令数量,以防止产生更多的热量。

  3. 如果失败,则图形卡中的固件应检测到危险正在积聚热量,因此会降低时钟速度以尝试减少热量的产生。

  4. 如果毕竟,热量仍在累积,则大多数现代CPU和GPU中可用的热敏二极管将完全关闭视频卡,并且热量产生将停止。

因此,如果您想通过过热从用户级别的应用程序中打破昂贵的视频卡,除了构建一个能使系统发挥最大作用的软件外,您还需要:

  1. 散热系统故障或损坏。只需将手指按在风扇上(始终在风扇中央,而不是在刀片中)即可解决问题。难度:容易

  2. 禁用或损坏了节流功能的自定义(或越野车)驱动程序。难度:正常

  3. 具有禁用时钟功能的自定义固件,该固件已禁用或损坏。难度:硬

  4. 损坏的热敏二极管。如果您不断触发热敏二极管,则可能会损坏它。难度:非常难

...但并非不可能!请随意尝试*,但是在操作时请确保将消防部门的电话放在手边。

*:这很讽刺。我绝不容忍引起火灾或任何可能以任何方式伤害您,您的家人,狗或社区的活动。通过阅读这篇文章,您完全可以免除我的责任。


1
+1为很多事情,尤其是对狗的思考。:)
Andrew Thompson

2

即使关闭VSYNC,许多游戏也无法达到98%的GPU利用率。他们实现的实际游戏玩法越多,可以投放的帧就越少,GPU使用不足的可能性就越大。优质的多核优化游戏可以显着接近100%的GPU利用率,但一般而言,游戏逻辑使CPU忙于其他任务,以致于无法使满负荷的GPU饱和。纯渲染应用程序可以轻松达到100%的GPU负载,但是游戏所要做的远不止渲染。

附带一提,在我的家用计算机上,GPU在高负载下会产生明显的EMI,并且会干扰主板上廉价的集成音频。我可以听到模拟音频的高音调,其频率随负载而变化。我开始享受它,并认为它是功能而不是设计缺陷,它使剖析变得有趣,因为我实际上可以听到负载水平,而无需采样GPU性能计数器。但是,我想如果您有一些对EMI高度敏感且屏蔽不充分的设备,那可能是个问题……GPU高负载可能会导致另一台设备发生故障。


0

过热会损坏您的图形卡。如您所见,如果抛出大量无法处理的数据循环,肯定会崩溃并可能永久损坏您的卡。


4
但是,任何应用程序都能给卡带来更多的乐趣(几乎比卡本身年轻几年的任何游戏)。一个适当的冷却系统应防止(不管做什么应用程序),不应该吗?
NPS 2014年

您是正确的,因为任何游戏都可以这样做...但是大多数代码不会以100%的速度扼杀GPU,如果这样做,则长期而言通常不是100%的速度。虽然,我会100%同意您的意见,但适当的冷却系统应能防止所有这些情况。
乔·斯温德尔

2
这似乎是疯狂的。像CPU一样,时钟速度应设置在安全的水平上
Richard Tingle 2014年

0

是的,它可以。

  • 明显的例子就是过热,可能是极端的工作量引起的。通常通过超频来实现。这将是最容易故意造成的。

好的冷却系统可以避免。启用垂直同步也是避免这种情况的好方法。垂直同步可防止GPU以比监视器可处理的速度更快的速度输出帧,这些帧通常会掉落,根本看不到。

更少的帧=更少的处理=更少的极端工作量。

跟踪GPU的功能也很重要。我想象Crytek的程序员编写该代码是为了让别人高估他们的图形卡功能。如果他们这样做了,那么我相信这是一个节省了许多GPU的功能,并且使许多不知情的GPU所有者免于沮丧。

  • 少量损坏(或编码不正确)的数据可能导致指针最终指向它不应该指向的地方,这可能会破坏各种事物。尽管可能不是永久的,但它可能会在其操作中导致不同程度的故障。CPU上的此类故障通常由操作系统捕获,并且可以避免,或者,如果无法避免,则将调用BSOD(蓝屏死机)。

可以通过在运行时进行仔细的编码和再次检查来避免。(但是总是有错误。如果没有,那是因为它们在和您玩弄。)

  • GPU也将有一个驱动程序,这会增加发生错误的位置。某些数据可能在那里被破坏,或者可能存在错误等,等等。通常,要添加到该驱动程序中,有引起BSOD的风险。当出现严重错误时,操作系统的后备系统需要运行紧急关机操作,以尝试最大程度地减少或防止损坏。一个经过仔细编码的驱动程序不会(希望)不会这样做,但是总是有可能出现错误。包括紧急关机程序。

可以通过在运行时进行仔细的编码和再次检查来避免这种情况。


3
幸运的是,很长一段时间以来,显示驱动器并不是BSOD的重要来源。Microsoft彻底修改了Windows NT 6.0(Vista)中的驱动程序模型,并将大量驱动程序推入用户模式。蓝屏死机仅由内核模式崩溃引起。当用户模式显示驱动程序崩溃时,发生的最糟糕的事情是该驱动程序会自行重置-在D3D游戏中,您可能不得不处理上下文丢失并花一些时间重新加载资源,但是在GL中,有时您可以从中完全透明地恢复。获得BSOD需要严重的低级失败。
安东·科尔曼

0

一句话回答:可以。

详细答案:是的。它可以(在某些情况下)。想象一下,您编写了一个程序,该程序将数据彻底传输到GPU到无限循环。肯定会过热。现在,它的冷却系统是否有责任照顾它?当然是的。但您还应该记住,冷却系统也有一些阈值水平。如果产生的热量超出了冷却系统的工作范围,则几乎没有任何用途。我不知道您的应用程序会做什么,但是从程序员的角度来讲,您可能会编写导致此类情况的程序。


据我所知,所有这些都已经说过了。这是你的意思吗?
Anko 2014年

0
  1. 在实际使用的卡上安装不匹配的驱动程序很容易导致永久损坏。我的朋友以某种方式设法通过重复安装操作系统和物理更换硬盘来做到这一点。

  2. 使您的PC打开和关闭很多次。不知道这是否会导致失败,但是很有可能。无论如何,听起来并不是一个很好的software方法。

  3. 通过打开和关闭耗电的USB设备来控制系统中的电源级别(例如:不使用自身电源的外部HDD)。这样做总是会使我的键盘和鼠标在下一次重新启动之前无法使用,并且(我每天插入3个HDD超过2年)在我的一个RAM芯片中烧掉了几个单元,每10-20分钟产生一次BSOD。


1
您是否在谈论由于不确定而可以通过软件完成的事情?
NPS

在WRT#3中,USB所使用的5V电压轨由电源调节,而与12V电压轨无关,在主板和图形卡上进一步调节电压以为CPU,GPU和系统内存供电。主板经常使用多熔丝来限制通过USB端口的电流,这可以解释如果共享相同的多熔丝的硬盘驱动器插入时键盘/鼠标的问题。浪涌使盘片旋转的浪涌电流会导致USB电源轨上的电压下降,从而导致键盘微控制器的电源不足。但是,出现故障的RAM几乎可以肯定是巧合。
bcrist 2014年

0

我的个人经验:

我曾经在2008年8月前后生产过带有Quadro FX570M的Lenovo Thinkpad T61p,据悉这批GPU有故障,有一天或另一天会发生故障(在某些GPU引脚上焊接效果欠佳)。

直到我运行XCOM The Bureau为止,一切都维持了大约5年(游戏并未真正进行优化),笔记本电脑很热,全速运转,并且经过了大约1个小时的游戏,它确实死了,但并不常见冻结。

你猜怎么了 ?我关闭了笔记本电脑然后再重新打开,它已死于相关的BIOS蜂鸣声代码,指示视频出现故障。

要回答您的问题:是的(正如其他人指出的那样),如果前者未受到某种形式的保护,则软件肯定会破坏硬件;例如,如果GPU风扇关闭,那么它肯定会以100%的成功机会爆炸:D


我的问题是针对具有适当功能的冷却系统和内置安全系统的硬件。否则,我们只是在谈论有缺陷的硬件,而该硬件肯定会因任何软件而失效。
NPS

0

我曾经有一个GeForce 4 MX 440图形板,我想玩波斯王子:时光倒流。但是游戏没有启动,因为找不到所需的Pixel Shader支持。这对我来说有点出乎意料,因为后来的波斯王子:内心勇士表现良好。

因此,最终我找到了3d分析器(http://www.tommti-systems.com/main-Dateien/files.html),并迫使游戏运行并玩了几天。几天后,我的视频卡坏了-不再显示任何内容。我在新电脑上使用了大约5-6个月,因此我认为强迫游戏以这种方式运行实际上破坏了我的显卡:(


-1

是的,我已经破产了。我不再运行网格GPU计算应用程序了。某些应用程序往往会破坏这些应用程序,尤其是当机器进入睡眠模式时,但是在正常情况下,当鼓风机正在工作/冷却液在循环时,除非冷却尺寸过小,否则不会出现问题。


你是什​​么意思“睡眠模式”?“睡眠模式”通常是指RAM暂停(一种计算机电源状态),在该状态下仅随机存取存储器保持电源状态。那怎么会破坏显卡?
Anko 2014年

@Anko,从这里拿走。en.wikipedia.org/wiki/Sleep_mode
Anssi

好,那是我想你的意思。但是,我对这种推理感到困惑:当应用程序暂停进入睡眠模式时,它们如何造成损害?
Anko 2014年

-2

卡的电路可能会短路,但是这种情况极不可能发生,因为系统要隔离到一定的高温。在某些情况下,如果卡的热力学系统确实非常靠近另一个系统,或者甚至接触了不是系统的另一种材料,则该热力学系统可能会受到干扰。


3
该情况如何由应用程序引起?这似乎没有解决这个问题。
塞斯·巴丁

我相信你不熟悉的AND,OR,NOT逻辑门
Orenrocco

5
我相信您第二次完全错过了这一点。
塞斯·巴丁

1
没有软件命令sendShortCircuit,因为这样的短路将是图形卡的缺陷。该软件对此不承担任何责任。这个问题是关于例如图形卡是否被评为“ 100%的使用率高达1秒,长期平均使用率达到90%”,并且该软件必须不超过该级别
Richard Tingle 2014年

3
@ user3643191,我们没有在攻击您;我们指出了可以改善和澄清您的信息的地方。所有这些注释最终都将被删除(通过设计);您的帖子将继续保留。您可以随时编辑和改善您的信息,因此,请趁机做出更好的回答。完成此操作后,您可能会获得一些支持(或者有人可能删除了支持),这些评论最终将消失,并且您的开悟性答案将持续数年。
PotatoEngineer 2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.