如何确定磁盘是否在ESXi上出现故障/这些错误是什么意思?


10

我有一台运行VMware ESXi v4.1.0 348481的服务器。它具有硬件RAID10和SATA备份驱动器。我有一个正在运行的VM,它在RAID10数据存储上具有主引导vmdk,在SATA备份驱动器的数据存储上具有600 GB的vmdk。VM运行带有FreeBSD内核的Debian linux,并使用ZFS作为备份驱动器。

编辑:驱动器直接连接到VM。它用作VMware数据存储,并且VM在SATA驱动器的数据存储上具有vmdk。数据存储是完整的(只有65%满)

我使用SSH登录到服务器,并发现昨晚备份已挂起,zfs listzpool list都已挂起。所以,我打开ESXi中的虚拟主机,是悲伤地看到:

该屏幕截图让我很难过

(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)
(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)

我尝试重新启动VM,并收到一条消息,指出系统正在关闭以重新启动,然后挂起。(^ C出现但不会杀死shutdown)。我不能中断或kill -9zpool list zfs listrsync过程-当我尝试没有任何反应。

  1. 这是否表明备份SATA驱动器出现故障?还是这仅仅是ESXi错误?
  2. 如何在vSphere Client中判断驱动器是否出现故障?我没有看到任何迹象,“硬件运行状况”下的所有内容看起来都不错,并且在“存储”配置下什么也没看到。
  3. 我应该从这里继续吗?我应该硬重启虚拟机吗?

更新:我只是硬重启了虚拟机。恢复联机后,备份zpool处于联机状态,但是:

root@timestandstill:/home/jnet# zpool status -v
  pool: backup
 state: ONLINE
status: One or more devices has experienced an error resulting in data
        corruption.  Applications may be affected.
action: Restore the file in question if possible.  Otherwise restore the
        entire pool from backup.
   see: http://www.sun.com/msg/ZFS-8000-8A
 scrub: none requested
config:

        NAME        STATE     READ WRITE CKSUM
        backup      ONLINE       0     0     0
          da1       ONLINE       0     0     0


errors: Permanent errors have been detected in the following files:

        /backups/someserver/home/someuser/public_html/somedir/calendar/someuser/calendars/somefile.ics

我非常倾向于更换驱动器...

Answers:


5

这些错误确实表明其中一个SATA驱动器已遇到足够多的坏块,用完了块重新分配空间。该驱动器损坏,需要更换。我不确定该信息在vSphere Client中的何处显示,但是日志条目非常清晰。

如果您的硬件允许,则应该可以进行热插拔。否则,您将必须关闭所有内容以执行更改。如果该虚拟机在30分钟后仍未关闭,那么就该硬终止它了。这是有风险的,但是如果真的挂了,那就没什么了。


感谢@ sysadmin1138。因此,即使这些错误显示在VM内部,也清楚地指示出真正的硬件问题吗?IE浏览器不只是一些VMware怪癖?
乔什(Josh)

@Josh如果直接将SATA驱动器展示给了VM,那么您肯定会看到的。对于文件支持的存储,我不太确定。可能是您的数据存储空间不足。
sysadmin1138

我应该澄清一下。它是文件支持的存储。数据存储区有足够的空间:它是一个1TB的驱动器,而VMDK是600 GB,磁盘上没有其他存储空间。无论哪种方式,这显然都是错误的,因此,除非其他人给我清楚的解释这可能是什么,否则我将更换驱动器。
乔什(Josh)
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.