电源故障后如何检查CentOS 6服务器VM主机？

9

今天下午，我们办公室的某人决定将插头从服务器中拔出，因为它正在外面狂奔。他们没有关闭它，只是在运行时拔出了插头。

该服务器在软件RAID 10配置中具有4个SATA驱动器，并且LVM运行在RAID之上。该服务器运行的是CentOS 6.2最低版本，并且是使用KVM的虚拟机主机。拔出电源时，计算机上运行着许多客户机。每个来宾都有一个或多个LVM分区，可以直接用作硬盘驱动器。来宾分区是EXT3，EXT4和NTFS。主机操作系统位于EXT4分区上。

后来，当电源恢复时，那个人将其插回电源，然后启动。由于他们没有先连接显示器就将其插入，因此无法查看屏幕上出现的情况。我现在尝试连接显示器，但是除非在启动时连接显示器，否则它将无法工作。我一直按原样保留它，直到我得到一些建议为止，因为我不想搞砸（进一步）。

我可以通过SSH进入主机。我还没有重新启动它，以防日志中某处可能有用。

我需要做的是检查所有磁盘和分区的数据完整性，如果可能的话。我认为RAID 10使用某种基于内存的缓存，并且我担心驱动器不一致，或者如果有提示要写入尚未写入的驱动器，则文件会损坏。

[root@othello ~]# cat /proc/mdstat
Personalities : [raid10] [raid1] 
md2 : active raid1 sdc1[2] sda1[0] sdd1[3] sdb1[1]
      102388 blocks super 1.0 [4/4] [UUUU]

md0 : active raid10 sda3[0] sdc3[2] sdd3[3] sdb3[1]
      1952289792 blocks super 1.1 512K chunks 2 near-copies [4/4] [UUUU]
      bitmap: 0/15 pages [0KB], 65536KB chunk

md1 : active raid10 sdc2[2] sda2[0] sdd2[3] sdb2[1]
      1022976 blocks super 1.1 512K chunks 2 near-copies [4/4] [UUUU]

unused devices: <none>

这也令我感到困扰，它称我的数组为“近副本”。那是正常的吗？

我应该运行哪种磁盘检查以确保驱动器和数据一切正常？还有什么我应该检查的吗？

更新

mdadm --detail的输出

[root@othello ~]# mdadm --detail /dev/md0
/dev/md0:
        Version : 1.1
  Creation Time : Sat Feb 25 09:26:20 2012
     Raid Level : raid10
     Array Size : 1952289792 (1861.85 GiB 1999.14 GB)
  Used Dev Size : 976144896 (930.92 GiB 999.57 GB)
   Raid Devices : 4
  Total Devices : 4
    Persistence : Superblock is persistent

  Intent Bitmap : Internal

    Update Time : Sun Mar 11 12:59:30 2012
          State : active 
 Active Devices : 4
Working Devices : 4
 Failed Devices : 0
  Spare Devices : 0

         Layout : near=2
     Chunk Size : 512K

           Name : othello.myserver.com:0  (local to host othello.myserver.com)
           UUID : 58ba40ab:12516733:e3779362:68200fdd
         Events : 2208

    Number   Major   Minor   RaidDevice State
       0       8        3        0      active sync   /dev/sda3
       1       8       19        1      active sync   /dev/sdb3
       2       8       35        2      active sync   /dev/sdc3
       3       8       51        3      active sync   /dev/sdd3

— 缺口
source

3

RAID很好，所有UUUU都意味着阵列中的所有磁盘都已启动。我现在甚至不用担心。

至于虚拟机，如果要在它们上运行fscks，请停止虚拟机并运行

fsck.ext3 (ext4, etc) /path/to/lvm （通常类似于/ dev / vg-name / lv-name）

如果您使用的是KVM，则应该能够对virshVM执行任何所需的操作。这是virsh手册页的链接，网址为http://linux.die.net/man/1/virsh

如果您确实要在RAID阵列上运行磁盘检查，则必须重新引导至单用户模式或从实时CD引导，以便可以对单个/ dev / mdX设备进行检查。由于主要文件系统是EXT4，所以我不会打扰，它比停电的EXT3好得多。

— 杰米勒
source

+1，明天再试。

— 尼克

1

尝试mdadm --detail / dev / md0（与md1和md2相同）。

然后尝试此处给出的建议：http : //linas.org/linux/raid.html

— 颂
source

我已经发布了mdadm --detail /dev/md0上面的输出。我已通读了您链接的指南，但未提及EXT4文件系统，或者，该如何检查完整性？

— 尼克

就RAID完整性而言，文件系统类型无关紧要。如果有维护期，则可以卸载受影响的文件系统及其文件fsck。如果要检查RAID设备本身，可以执行echo "check" > /sys/block/md0/md/sync_action。或回显“修复”以进行某种mdadm修复。

— cjc 2012年

明天我会尝试并报告。

— 尼克