根据gpu负载检查计算机关机的根本原因


0

我正在尝试将我的Nvidia gpu用于科学目的。但是过了一段时间我开始为这个gpu启动一个进程,我的计算机就关机了。它不能从案例按钮打开,除非PSU电源按钮关闭并保持在此状态至少30秒然后开启。我想找出这种情况的原因。

我的系统概述是:

  • Linux(fedora)
  • 主板:技嘉GA-970A-UD3
  • Nvidia Gtx 1070(用于gpu任务)
  • Radeon HD 7850(用于标准用途)
  • 700W PSU

这是我到目前为止所尝试的一系列事项:

  • 我做了一个CPU负载测试,它没有关闭
  • 我删除了AMD GPU,它仍然关闭
  • 如果我在很短的时间内对Nvidia GPU进行轻量计算,它就不会关闭
  • 如果我进行大量计算,它会在启动后很快停止
  • 我检查了Nvidia gpu temp,甚至它浮动最大值。大约55摄氏度,它关闭了
  • 我手动将Nvidia GPU风扇速度设置为%80。它似乎有所帮助,因为给定的任务运行时间比平时稍长,但它并没有阻止关机
  • 我删除了额外的硬盘或风扇,使PSU减少疲劳,它根本没有帮助
  • 我添加额外的PSU使用 add2psu 但仍然关闭
  • 即使CPU温度约为45,如果Nvidia GPU开始进行计算,它也会关闭
  • 我完全改变了我的计算软件,但它关闭了
  • 我更新了Nvidia驱动程序,这没有帮助
  • 我尝试了随机计算,以隔离硬盘读取过程,但它仍然关闭
  • 我重新安装了操作系统,但问题仍然存在
  • 我检查了主板,但没有烧伤痕迹

你有什么建议吗?这可能是什么原因?

谢谢。


谁创作了你的nvidia驱动程序?我正在看一些特定于Fedora的教程,这些教程解决了nvidia专有驱动程序安装和Nouveau驱动程序的卸载问题。
Ed Salter

2 GPU有多接近它们可以将热量传递回来?为你的窗户拿一个箱式风扇,打开箱子的侧面并将其吹入,看看是否有任何影响。
cybernard

@Ed Salter我和cuda toolkit一起安装了官方的nvidia驱动程序。没有第三方回购涉及。
Sefa

@cybernard我已经删除了AMD gpu并尝试了但是没有成功。但我会给风机吹风机。
Sefa

Answers:


0

你的CPU临时温度是多少?热复合物使用不当:CPU冷却器不够或未对准可能会因过热而导致同样的问题,最后要检查的是你的电源,我最近有一个在负载(游戏)下失败并重启我的系统但是当我不玩游戏时会跑几个小时。 首先检查最便宜和最容易的是PSU,如果仍然没有缓解,那么请考虑重新安装CPU上的散热膏,并确保CPU散热器正确就位。


我在帖子中已经提到过:1-“我做了一个CPU负载测试并且它没有关闭”2-“我使用add2psu添加额外的PSU但是仍然关闭”3“我手动将Nvidia GPU风扇速度设置为%80 ......但它没有阻止关机“
Sefa

-1

我在Nvidia GPU的任务执行期间检查了时钟频率并发现了它 真的超过规格最大值 。所以在像P8这样的较低状态下,它不会关闭,但这种超频频率会阻止它在更高的状态下工作。

我无法限制Nvidia GPU的时钟频率。然而,我设法通过限制它的功耗来使其工作,但是%20的成本相对较慢的执行速度。

命令:

nvidia-smi --persistence-mode=1
nvidia-smi --power-limit=$POWER_LIMIT

那你的GPU过热了。在你的回答中值得一提。减少提供给卡的功率也会降低温度。可能已经或者仍然可以通过充分改善冷却来解决这个问题而不会影响性能。
Cliff Armstrong

很可能不是,它不是关于GPU加热。在我的原始帖子中,我写道“我手动将Nvidia GPU风扇速度设置为%80。它似乎有所帮助,因为给定的任务运行时间比平时稍长但不会阻止关机”。如果我检查温度,它不会超过61C,我认为这可以忽略不计。
Sefa

是的,你写的是......而且它的意思是什么都没有。全速运转风扇并不能保证不会过热。另一方面,我有二十年的计算机技术经验,告诉我你的案例是教科书过热问题。 GPU以更高的时钟速率运行绝对没有坏处......除非它导致GPU过热。当你降低GPU时钟速度时问题就消失了,但证明这是一个过热的问题。
Cliff Armstrong

所以你坚持过热。我期待你解释这些问题:为什么我的nvidia gpu temp传感器以0.2ms的间隔显示最大61 C并且在更高的时钟后立即关闭?即使与gpu相邻的极低温冰盒也不能阻止关机?第二个问题是,为什么限制功率不会阻止温度升高,在执行过程中温度升高到66℃但是会阻止关机?
Sefa

因为那些传感器不在gpu内部。需要时间让来自gpu核心的热量物理地到达传感器...无论你多久从传感器读取一次,它都无法克服这个问题。如果热量增加得足够快,则传感器显示的温度和实际温度之间可能存在很大的差距。这也可以解释为什么你会看到更高的温度和更低的功率...因为在这种情况下,传感器有时间准确读数。这甚至没有考虑到克的温度。
Cliff Armstrong
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.