我们有几十个Proxmox服务器(Proxmox在Debian上运行),大约每个月一次,其中一个将出现内核崩溃并锁定。关于这些锁定的最糟糕的部分是,当它是与群集主服务器位于不同交换机上的服务器时,该交换机上的所有其他Proxmox服务器将停止响应,直到我们找到实际崩溃的服务器并重新启动它为止。
当我们在Proxmox论坛上报告此问题时,建议我们升级到Proxmox 3.1,并且在过去的几个月中我们一直在这样做。不幸的是,星期五,我们迁移到Proxmox 3.1的服务器之一因内核崩溃而锁定,并且位于同一交换机上的所有Proxmox服务器再次无法通过网络访问,直到我们找到崩溃的服务器并重新启动它为止。
好吧,交换机上的几乎所有Proxmox服务器...我发现有趣的是,同一交换机上仍在Proxmox 1.9版上的Proxmox服务器不受影响。
这是崩溃的服务器的控制台的屏幕截图:
服务器锁定后,同一交换机上同时运行Proxmox 3.1的其余服务器将无法访问,并出现以下情况:
e1000e 0000:00:19.0: eth0: Reset adapter unexpectedly
e1000e 0000:00:19.0: eth0: Reset adapter unexpectedly
e1000e 0000:00:19.0: eth0: Reset adapter unexpectedly
...etc...
uname-锁定服务器的输出:
Linux ------ 2.6.32-23-pve #1 SMP Tue Aug 6 07:04:06 CEST 2013 x86_64 GNU/Linux
pveversion -v输出(缩写):
proxmox-ve-2.6.32: 3.1-109 (running kernel: 2.6.32-23-pve)
pve-manager: 3.1-3 (running version: 3.1-3/dc0e9b0e)
pve-kernel-2.6.32-23-pve: 2.6.32-109
两个问题:
有什么线索会导致内核崩溃(请参见上图)?
为什么在重新启动锁定的服务器之前,将同一交换机和Proxmox版本上的其他服务器从网络上断开?(注意:同一台交换机上还有其他运行较旧1.9版Proxmox的服务器不受影响。此外,同一3.1群集中没有其他不在同一台交换机上的Proxmox服务器受到影响。)
在此先感谢您的任何建议。