对于一个项目,我们有50台服务器(全部)配备(通常)相同的硬件。我们这里遇到的问题非常严重,并且在所有计算机上都会发生。尽管付出了很多努力,并与制造商和软件开发人员联系,但每个人都指向彼此,甚至拒绝向我提供正在发生的事情的线索。
首先让我描述一下设置。这是“服务器级”硬件。对于我的第一次经验,servergrade是我一生中最大的失望。
- 超微X10SDV-8C + -LN2F
- 英特尔至强D-1540(嵌入式主板上)
- 定制设计的1U机箱或SuperMicro原装机箱
- 480瓦服务器PSU或200瓦SuperMicro原始PSU
- 三星Evo 850 500 GB SSD
- 32 GB DDR4-2133 ECC或NON-ECC(但不能在同一服务器中混合使用)
- 华硕GT730 4GB DDR3 GPU
- GPU装有PCIe转接卡(非功能区),其名称来自中国或SuperMicro原创
在系统上运行-Windows Server 2012 R2 Enterprise-VMWare工作站12-VM运行GPU密集型任务-该系统有货,根本没有超频/超频
症状-随机BSOD 0x09c(又名Machine_Check_Exception):有时系统运行一周没有问题,有时在仅10分钟后崩溃,但大多数情况下运行了几个小时。
已经尝试/检查过:
- BIOS更新为最新版本(我现在认为这可以缩短系统稳定的时间,但这可能是随机的)。
- Windows已更新为最新版本。
- VMWare已更新为最新版本。
- 交换所有组件并尝试了所有其他选项,甚至尝试了台式机ATX PSU和M.2 SSD。
- 使用Ubuntu从头开始安装所有系统。我不熟悉Linux,也从未见过Linux BSOD,但由于服务器系统没有头,所以我仍然没有,我在DC中尝试过。结果:系统将挂起,并且重启后Linux报告XORG崩溃(与GPU相关)。
- 将BIOS中的GPU设置更改为“ Above 4G”,BIOS的其余部分为出厂默认设置。
还提供信息:
- 系统位于数据中心中。温度,空气,功率和网络是最佳的。
- 温度远低于出厂最高温度
- 我们在台式计算机(带有台式机硬件)上运行的软件设置完全相同。这些系统每月可以正常运行100台PC中的1台崩溃。
- 我已经联系VMWare,说这是硬件问题
- 我已经联系了超微(SuperMicro),他们只说了几句话,什么都没有说,并且已经尝试过了,而且这仍然可能是软件问题。
我们在这里绝望。幸运的是,我们运行的应用程序是多余的。如果服务器及其上的VM掉线,则不是问题,其他服务器将在5分钟内接管负载,但是按照这种速率,我必须整天处于联机状态才能重新启动服务器。
我拥有大量的硬件知识,但是这已经过去了,我整天都在搜索一个多月以尝试各种不同的方法。这些主板可与托管服务提供商大规模使用,这一事实使我怀疑主板本身还可以。对于RMA,这绝对不是特定的硬件问题,因为所有50个板卡都有相同的症状。与我们唯一不同的是GPU。这与Linux实验相结合,使我怀疑这一定是PCIe通道上的东西。GPU本身在台式机主板上是稳定的。尽管内存容量很大,但是这是一个小的GPU,不会消耗太多电能。我会怀疑中国的转接卡,但是我们又使用了超微认证的转接卡,它们丝毫没有改善。
我非常渴望在这里找到解决方案。这将从确定确切原因开始。我们愿意向能够分析一些转储并提供更多详细信息(甚至更好的是,解决方案)的专家表示感谢。
亲切的问候,
西蒙