电源故障后如何检查CentOS 6服务器VM主机?


9

今天下午,我们办公室的某人决定将插头从服务器中拔出,因为它正在外面狂奔。他们没有关闭它,只是在运行时拔出了插头。

该服务器在软件RAID 10配置中具有4个SATA驱动器,并且LVM运行在RAID之上。该服务器运行的是CentOS 6.2最低版本,并且是使用KVM的虚拟机主机。拔出电源时,计算机上运行着许多客户机。每个来宾都有一个或多个LVM分区,可以直接用作硬盘驱动器。来宾分区是EXT3,EXT4和NTFS。主机操作系统位于EXT4分区上。

后来,当电源恢复时,那个人将其插回电源,然后启动。由于他们没有先连接显示器就将其插入,因此无法查看屏幕上出现的情况。我现在尝试连接显示器,但是除非在启动时连接显示器,否则它将无法工作。我一直按原样保留它,直到我得到一些建议为止,因为我不想搞砸(进一步)。

我可以通过SSH进入主机。我还没有重新启动它,以防日志中某处可能有用。

我需要做的是检查所有磁盘和分区的数据完整性,如果可能的话。我认为RAI​​D 10使用某种基于内存的缓存,并且我担心驱动器不一致,或者如果有提示要写入尚未写入的驱动器,则文件会损坏。

[root@othello ~]# cat /proc/mdstat
Personalities : [raid10] [raid1] 
md2 : active raid1 sdc1[2] sda1[0] sdd1[3] sdb1[1]
      102388 blocks super 1.0 [4/4] [UUUU]

md0 : active raid10 sda3[0] sdc3[2] sdd3[3] sdb3[1]
      1952289792 blocks super 1.1 512K chunks 2 near-copies [4/4] [UUUU]
      bitmap: 0/15 pages [0KB], 65536KB chunk

md1 : active raid10 sdc2[2] sda2[0] sdd2[3] sdb2[1]
      1022976 blocks super 1.1 512K chunks 2 near-copies [4/4] [UUUU]

unused devices: <none>

这也令我感到困扰,它称我的数组为“近副本”。那是正常的吗?

我应该运行哪种磁盘检查以确保驱动器和数据一切正常?还有什么我应该检查的吗?

更新

mdadm --detail的输出

[root@othello ~]# mdadm --detail /dev/md0
/dev/md0:
        Version : 1.1
  Creation Time : Sat Feb 25 09:26:20 2012
     Raid Level : raid10
     Array Size : 1952289792 (1861.85 GiB 1999.14 GB)
  Used Dev Size : 976144896 (930.92 GiB 999.57 GB)
   Raid Devices : 4
  Total Devices : 4
    Persistence : Superblock is persistent

  Intent Bitmap : Internal

    Update Time : Sun Mar 11 12:59:30 2012
          State : active 
 Active Devices : 4
Working Devices : 4
 Failed Devices : 0
  Spare Devices : 0

         Layout : near=2
     Chunk Size : 512K

           Name : othello.myserver.com:0  (local to host othello.myserver.com)
           UUID : 58ba40ab:12516733:e3779362:68200fdd
         Events : 2208

    Number   Major   Minor   RaidDevice State
       0       8        3        0      active sync   /dev/sda3
       1       8       19        1      active sync   /dev/sdb3
       2       8       35        2      active sync   /dev/sdc3
       3       8       51        3      active sync   /dev/sdd3

Answers:


3

RAID很好,所有UUUU都意味着阵列中的所有磁盘都已启动。我现在甚至不用担心。

至于虚拟机,如果要在它们上运行fscks,请停止虚拟机并运行

fsck.ext3 (ext4, etc) /path/to/lvm (通常类似于/ dev / vg-name / lv-name)

如果您使用的是KVM,则应该能够对virshVM执行任何所需的操作。这是virsh手册页的链接,网址为http://linux.die.net/man/1/virsh

如果您确实要在RAID阵列上运行磁盘检查,则必须重新引导至单用户模式或从实时CD引导,以便可以对单个/ dev / mdX设备进行检查。由于主要文件系统是EXT4,所以我不会打扰,它比停电的EXT3好得多。


+1,明天再试。
尼克

1

尝试mdadm --detail / dev / md0(与md1和md2相同)。

然后尝试此处给出的建议:http : //linas.org/linux/raid.html


我已经发布了mdadm --detail /dev/md0上面的输出。我已通读了您链接的指南,但未提及EXT4文件系统,或者,该如何检查完整性?
尼克

就RAID完整性而言,文件系统类型无关紧要。如果有维护期,则可以卸载受影响的文件系统及其文件fsck。如果要检查RAID设备本身,可以执行echo "check" > /sys/block/md0/md/sync_action。或回显“修复”以进行某种mdadm修复。
cjc 2012年

明天我会尝试并报告。
尼克
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.