BSOD 0x09c在50台SuperMicro计算机上


8

对于一个项目,我们有50台服务器(全部)配备(通常)相同的硬件。我们这里遇到的问题非常严重,并且在所有计算机上都会发生。尽管付出了很多努力,并与制造商和软件开发人员联系,但每个人都指向彼此,甚至拒绝向我提供正在发生的事情的线索。

首先让我描述一下设置。这是“服务器级”硬件。对于我的第一次经验,servergrade是我一生中最大的失望。

  • 超微X10SDV-8C + -LN2F
  • 英特尔至强D-1540(嵌入式主板上)
  • 定制设计的1U机箱或SuperMicro原装机箱
  • 480瓦服务器PSU或200瓦SuperMicro原始PSU
  • 三星Evo 850 500 GB SSD
  • 32 GB DDR4-2133 ECC或NON-ECC(但不能在同一服务器中混合使用)
  • 华硕GT730 4GB DDR3 GPU
  • GPU装有PCIe转接卡(非功能区),其名称来自中国或SuperMicro原创

在系统上运行-Windows Server 2012 R2 Enterprise-VMWare工作站12-VM运行GPU密集型任务-该系统有货,根本没有超频/超频

症状-随机BSOD 0x09c(又名Machine_Check_Exception):有时系统运行一周没有问题,有时在仅10分钟后崩溃,但大多数情况下运行了几个小时。

已经尝试/检查过:

  • BIOS更新为最新版本(我现在认为这可以缩短系统稳定的时间,但这可能是随机的)。
  • Windows已更新为最新版本。
  • VMWare已更新为最新版本。
  • 交换所有组件并尝试了所有其他选项,甚至尝试了台式机ATX PSU和M.2 SSD。
  • 使用Ubuntu从头开始安装所有系统。我不熟悉Linux,也从未见过Linux BSOD,但由于服务器系统没有头,所以我仍然没有,我在DC中尝试过。结果:系统将挂起,并且重启后Linux报告XORG崩溃(与GPU相关)。
  • 将BIOS中的GPU设置更改为“ Above 4G”,BIOS的其余部分为出厂默认设置。

还提供信息:

  • 系统位于数据中心中。温度,空气,功率和网络是最佳的。
  • 温度远低于出厂最高温度
  • 我们在台式计算机(带有台式机硬件)上运行的软件设置完全相同。这些系统每月可以正常运行100台PC中的1台崩溃。
  • 我已经联系VMWare,说这是硬件问题
  • 我已经联系了超微(SuperMicro),他们只说了几句话,什么都没有说,并且已经尝试过了,而且这仍然可能是软件问题。

我们在这里绝望。幸运的是,我们运行的应用程序是多余的。如果服务器及其上的VM掉线,则不是问题,其他服务器将在5分钟内接管负载,但是按照这种速率,我必须整天处于联机状态才能重新启动服务器。

我拥有大量的硬件知识,但是这已经过去了,我整天都在搜索一个多月以尝试各种不同的方法。这些主板可与托管服务提供商大规模使用,这一事实使我怀疑主板本身还可以。对于RMA,这绝对不是特定的硬件问题,因为所有50个板卡都有相同的症状。与我们唯一不同的是GPU。这与Linux实验相结合,使我怀疑这一定是PCIe通道上的东西。GPU本身在台式机主板上是稳定的。尽管内存容量很大,但是这是一个小的GPU,不会消耗太多电能。我会怀疑中国的转接卡,但是我们又使用了超微认证的转接卡,它们丝毫没有改善。

我非常渴望在这里找到解决方案。这将从确定确切原因开始。我们愿意向能够分析一些转储并提供更多详细信息(甚至更好的是,解决方案)的专家表示感谢。

亲切的问候,

西蒙


我对这个委员会有点熟悉,只有一个人...这里有太多活动部件,而对它们的解释却很少。VMware Workstation的用途是什么?他们正在运行什么应用程序?GPU如何传递给VM?
迈克尔·汉普顿

虚拟机运行的Windows公司需要一些GPU负载。我无法进一步详细说明。这是VMWare工作站,GPU已虚拟化。这也不应该很重要,它在桌面硬件上的工作原理完全相同,没有问题。
user349749 '16

这很重要,因为您没有在桌面硬件上运行它!
迈克尔·汉普顿

2
我怀疑您的主板和GPU之间不兼容。运气好的话,它也许可以在BIOS中更正,但我对此并不敢多说。由于这可以通过现有的Linux内核复制,因此我将尝试获取有关可能发生的内核恐慌的更多信息。
Law 2016年

VM内部运行的内容无关紧要。可能是渲染色情内容,或者找到治疗艾滋病的对策。重要的是标准GPU负载。@法律29; 那正是我的感受。我认为Linux并没有给我带来任何内核恐慌。服务器没有崩溃,只有GUI。
user349749 '16

Answers:


2

好了,这太迟了,我想这个问题已经解决了吗?不管哪种方式,0x9C通常都意味着MCE硬件故障,我们的GPU系统将linux作为主机运行于linux上,它比Windows更加详细地报告了这些错误。

无论如何,这些在我们前段时间由HP制造的类似硬件上随机出现在我们眼前,结果是没有足够的功率向GPU供电。特别是应该由PCIe端口本身提供的75W。

我们用万用表在PCIe突破板上确认了这一点。当同时冲击GPU和10Gbe网卡时,电压下降。虽然母板能够向x16插槽提供75W的功率,但是当其他卡都消耗功率时,功率传输部分仍然有些困难。

此处可能怀疑冒口,并且在大电流负载下会降低电压。


0

感谢您的回复。现在已经三年了。Supermicro拒绝以一切可能的方式帮助我们。我们发送了多台机器(正是我们制造的机器)。据他们说,他们对他们进行了数周的压力测试,他们从未坠毁。

对于提升板,直接在插槽中的GPU也会发生相同的错误。

Supermicro一直将责任归咎于VMWare,直到我得到他们发布的同一块板的新书时,我才相信这一点。几个月后,在没有超微的任何评论的情况下,至强D-1540的主板已更新为Xeon D-1541。新主板的基本面与新CPU相同(时钟频率也略高)。更新后的主板还具有额外的风扇接头和功能。

这些板不再崩溃。在完全相同的负载下,它们可以连续运行几个月而不会出现问题。我什至在这里克隆了机器,它们运行崩溃机器的确切硬件和软件。

这种证实了我的怀疑。Supermicro知道主板有问题,但是不想告诉我原因,因为最后我发现其中有100块主板由于崩溃而变得无用。他们从来没有和RMA或甚至没有修复BIOS更新有关,所以它一定是主板上的东西。

不用说,这是我第一次也是最后一次在Supermicro工作。任何品牌的球场都可能发生这种情况,但支持率不到零。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.