1
我的GPU死了吗?
我暂时禁用NVIDIA K20m(节点中的设备0)上的ECC内存保护,现在我再也无法恢复工作了。在此之前,它已启用ECC正常工作。所以,这就是我所做的:我用ECC禁用了ECC nvidia-smi -i 0 --ecc-config=0 并重新启动。当它出现时它表现出100%的GPU利用率并且它不会启动任何内核(它在创建上下文时实际上已经失败)。原因是双位错误。我重置它 nvidia-smi -i 0 --reset-ecc-errors=0 并重新启动节点。重启后设备利用率为0%,我可以照常开始工作。几个小时后,该设备再次显示出100%的GPU利用率。这次它没有报告双位错误(甚至没有单个位错误)。但是,由于我无法运行任何工作,我重新启动了节点,它提出了100%的GPU利用率,我无法使用它,但报告没有误码。这是怎么回事? GPU 0000:02:00.0 Product Name : Tesla K20m Display Mode : Disabled Persistence Mode : Enabled Driver Model Current : N/A Pending : N/A Serial Number : 0324512044699 GPU UUID : GPU-9bfe1aba-1628-a406-3ed5-2af49462a997 VBIOS Version : 80.10.11.00.0B Inforom Version Image …