我的GPU死了吗?


14

我暂时禁用NVIDIA K20m(节点中的设备0)上的ECC内存保护,现在我再也无法恢复工作了。在此之前,它已启用ECC正常工作。所以,这就是我所做的:我用ECC禁用了ECC

nvidia-smi -i 0 --ecc-config=0

并重新启动。当它出现时它表现出100%的GPU利用率并且它不会启动任何内核(它在创建上下文时实际上已经失败)。原因是双位错误。我重置它

nvidia-smi -i 0 --reset-ecc-errors=0

并重新启动节点。重启后设备利用率为0%,我可以照常开始工作。几个小时后,该设备再次显示出100%的GPU利用率。这次它没有报告双位错误(甚至没有单个位错误)。但是,由于我无法运行任何工作,我重新启动了节点,它提出了100%的GPU利用率,我无法使用它,但报告没有误码。这是怎么回事?

GPU 0000:02:00.0
    Product Name                : Tesla K20m
    Display Mode                : Disabled
    Persistence Mode            : Enabled
    Driver Model
        Current                 : N/A
        Pending                 : N/A
    Serial Number               : 0324512044699
    GPU UUID                    : GPU-9bfe1aba-1628-a406-3ed5-2af49462a997
    VBIOS Version               : 80.10.11.00.0B
    Inforom Version
        Image Version           : 2081.0208.01.07
        OEM Object              : 1.1
        ECC Object              : 3.0
        Power Management Object : N/A
    GPU Operation Mode
        Current                 : Compute
        Pending                 : Compute
    PCI
        Bus                     : 0x02
        Device                  : 0x00
        Domain                  : 0x0000
        Device Id               : 0x102810DE
        Bus Id                  : 0000:02:00.0
        Sub System Id           : 0x101510DE
        GPU Link Info
            PCIe Generation
                Max             : 2
                Current         : 2
            Link Width
                Max             : 16x
                Current         : 16x
    Fan Speed                   : N/A
    Performance State           : P0
    Clocks Throttle Reasons
        Idle                    : Not Active
        User Defined Clocks     : Not Active
        SW Power Cap            : Not Active
        HW Slowdown             : Not Active
        Unknown                 : Not Active
    Memory Usage
        Total                   : 4799 MB
        Used                    : 12 MB
        Free                    : 4787 MB
    Compute Mode                : Default
    Utilization
        Gpu                     : 100 %
        Memory                  : 0 %
    Ecc Mode
        Current                 : Enabled
        Pending                 : Enabled
    ECC Errors
        Volatile
            Single Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
            Double Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
        Aggregate
            Single Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
            Double Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
    Temperature
        Gpu                     : 30 C
    Power Readings
        Power Management        : Supported
        Power Draw              : 49.51 W
        Power Limit             : 225.00 W
        Default Power Limit     : 225.00 W
        Min Power Limit         : 150.00 W
        Max Power Limit         : 225.00 W
    Clocks
        Graphics                : 758 MHz
        SM                      : 758 MHz
        Memory                  : 2600 MHz
    Applications Clocks
        Graphics                : 705 MHz
        Memory                  : 2600 MHz
    Max Clocks
        Graphics                : 758 MHz
        SM                      : 758 MHz
        Memory                  : 2600 MHz
    Compute Processes           : None

2
看起来很奇怪 从来没有发现过这样的事情。即使它可能无法解决问题,尝试重新安装您的驱动程序,也许?
Ben Franchuk 2013年

我想你已经尝试了显而易见的废弃并重新安装一切?我的意思是,嗯,我对硬件知之甚少,所以我的方法总是要确保软件 - 我所理解的 - 应该有效。然后我可能会宣布这件作品被破坏,直到与更有见识的观点相矛盾。
阿丽亚娜2013年

我已经查看了它,并花了一些时间研究这个问题及其原因。看来最好的解决方案是更换硬件。
Adovi 2013年

1
你有没有尝试重置CMOS?
谢尔盖

Answers:


2

我的GPU死了吗?

我说它已经死了。它不再报告位错误,因为您关闭了检测它们的东西。(ECC 检测到的不仅仅是可以纠正的。)但是,可能是卡上的内存(或物理卡本身)发生了故障。

在我将它放入“回收”垃圾箱之前还有另外两个嫌疑人:冷却和电源。冷却很容易检查; 权力,而不是。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.