BSOD 0x09c在50台SuperMicro计算机上

对于一个项目，我们有50台服务器（全部）配备（通常）相同的硬件。我们这里遇到的问题非常严重，并且在所有计算机上都会发生。尽管付出了很多努力，并与制造商和软件开发人员联系，但每个人都指向彼此，甚至拒绝向我提供正在发生的事情的线索。

首先让我描述一下设置。这是“服务器级”硬件。对于我的第一次经验，servergrade是我一生中最大的失望。

超微X10SDV-8C + -LN2F
英特尔至强D-1540（嵌入式主板上）
定制设计的1U机箱或SuperMicro原装机箱
480瓦服务器PSU或200瓦SuperMicro原始PSU
三星Evo 850 500 GB SSD
32 GB DDR4-2133 ECC或NON-ECC（但不能在同一服务器中混合使用）
华硕GT730 4GB DDR3 GPU
GPU装有PCIe转接卡（非功能区），其名称来自中国或SuperMicro原创

在系统上运行-Windows Server 2012 R2 Enterprise-VMWare工作站12-VM运行GPU密集型任务-该系统有货，根本没有超频/超频

症状-随机BSOD 0x09c（又名Machine_Check_Exception）：有时系统运行一周没有问题，有时在仅10分钟后崩溃，但大多数情况下运行了几个小时。

已经尝试/检查过：

BIOS更新为最新版本（我现在认为这可以缩短系统稳定的时间，但这可能是随机的）。
Windows已更新为最新版本。
VMWare已更新为最新版本。
交换所有组件并尝试了所有其他选项，甚至尝试了台式机ATX PSU和M.2 SSD。
使用Ubuntu从头开始安装所有系统。我不熟悉Linux，也从未见过Linux BSOD，但由于服务器系统没有头，所以我仍然没有，我在DC中尝试过。结果：系统将挂起，并且重启后Linux报告XORG崩溃（与GPU相关）。
将BIOS中的GPU设置更改为“ Above 4G”，BIOS的其余部分为出厂默认设置。

还提供信息：

系统位于数据中心中。温度，空气，功率和网络是最佳的。
温度远低于出厂最高温度
我们在台式计算机（带有台式机硬件）上运行的软件设置完全相同。这些系统每月可以正常运行100台PC中的1台崩溃。
我已经联系VMWare，说这是硬件问题
我已经联系了超微（SuperMicro），他们只说了几句话，什么都没有说，并且已经尝试过了，而且这仍然可能是软件问题。

我们在这里绝望。幸运的是，我们运行的应用程序是多余的。如果服务器及其上的VM掉线，则不是问题，其他服务器将在5分钟内接管负载，但是按照这种速率，我必须整天处于联机状态才能重新启动服务器。

我拥有大量的硬件知识，但是这已经过去了，我整天都在搜索一个多月以尝试各种不同的方法。这些主板可与托管服务提供商大规模使用，这一事实使我怀疑主板本身还可以。对于RMA，这绝对不是特定的硬件问题，因为所有50个板卡都有相同的症状。与我们唯一不同的是GPU。这与Linux实验相结合，使我怀疑这一定是PCIe通道上的东西。GPU本身在台式机主板上是稳定的。尽管内存容量很大，但是这是一个小的GPU，不会消耗太多电能。我会怀疑中国的转接卡，但是我们又使用了超微认证的转接卡，它们丝毫没有改善。

我非常渴望在这里找到解决方案。这将从确定确切原因开始。我们愿意向能够分析一些转储并提供更多详细信息（甚至更好的是，解决方案）的专家表示感谢。

亲切的问候，

西蒙

supermicro bsod

— 用户349749
source

我对这个委员会有点熟悉，只有一个人...这里有太多活动部件，而对它们的解释却很少。VMware Workstation的用途是什么？他们正在运行什么应用程序？GPU如何传递给VM？

— 迈克尔·汉普顿

虚拟机运行的Windows公司需要一些GPU负载。我无法进一步详细说明。这是VMWare工作站，GPU已虚拟化。这也不应该很重要，它在桌面硬件上的工作原理完全相同，没有问题。

— user349749 '16

这很重要，因为您没有在桌面硬件上运行它！

— 迈克尔·汉普顿

我怀疑您的主板和GPU之间不兼容。运气好的话，它也许可以在BIOS中更正，但我对此并不敢多说。由于这可以通过现有的Linux内核复制，因此我将尝试获取有关可能发生的内核恐慌的更多信息。

— Law 2016年

VM内部运行的内容无关紧要。可能是渲染色情内容，或者找到治疗艾滋病的对策。重要的是标准GPU负载。@法律29; 那正是我的感受。我认为Linux并没有给我带来任何内核恐慌。服务器没有崩溃，只有GUI。

— user349749 '16

好了，这太迟了，我想这个问题已经解决了吗？不管哪种方式，0x9C通常都意味着MCE硬件故障，我们的GPU系统将linux作为主机运行于linux上，它比Windows更加详细地报告了这些错误。

无论如何，这些在我们前段时间由HP制造的类似硬件上随机出现在我们眼前，结果是没有足够的功率向GPU供电。特别是应该由PCIe端口本身提供的75W。

我们用万用表在PCIe突破板上确认了这一点。当同时冲击GPU和10Gbe网卡时，电压下降。虽然母板能够向x16插槽提供75W的功率，但是当其他卡都消耗功率时，功率传输部分仍然有些困难。

此处可能怀疑冒口，并且在大电流负载下会降低电压。

— TriadicTech
source

感谢您的回复。现在已经三年了。Supermicro拒绝以一切可能的方式帮助我们。我们发送了多台机器（正是我们制造的机器）。据他们说，他们对他们进行了数周的压力测试，他们从未坠毁。

对于提升板，直接在插槽中的GPU也会发生相同的错误。

Supermicro一直将责任归咎于VMWare，直到我得到他们发布的同一块板的新书时，我才相信这一点。几个月后，在没有超微的任何评论的情况下，至强D-1540的主板已更新为Xeon D-1541。新主板的基本面与新CPU相同（时钟频率也略高）。更新后的主板还具有额外的风扇接头和功能。

这些板不再崩溃。在完全相同的负载下，它们可以连续运行几个月而不会出现问题。我什至在这里克隆了机器，它们运行崩溃机器的确切硬件和软件。

这种证实了我的怀疑。Supermicro知道主板有问题，但是不想告诉我原因，因为最后我发现其中有100块主板由于崩溃而变得无用。他们从来没有和RMA或甚至没有修复BIOS更新有关，所以它一定是主板上的东西。

不用说，这是我第一次也是最后一次在Supermicro工作。任何品牌的球场都可能发生这种情况，但支持率不到零。

— 西蒙·阿莱（Simon Allais）
source