不幸的是,看起来我们可能没有深入了解应用程序的内容,但是为了从这次事件中获得一些价值,我想创建一个参考答案。这是以VMware和虚拟层管理为中心的。很多管理员处于隔离状态,无法快速访问访客或存储,这是给他们的:)
@MosheKatz发现,http://support.seagate.com/kbimg/flash/laptop/Laptop.swf似乎与实际应用最接近。
如果将来发生这种情况,应进行如下调查:
- 您会注意到一些但不是所有VM都崩溃了。您怀疑这是由于存储问题引起的(通常是最可能的原因)
- 首先尝试找出一个共同因素。是否所有崩溃的VM共享相同的数据存储?在这种情况下,它们是可以的,但是某些机器还可以,因此我们排除了明显的硬件问题。
- 检查所有损坏的VM,以查看是否存在共同因素(时间,功能等)。在这种情况下,没有。
检查其他异常事件。某物在这里升起了旗帜:
- NFS存储是精简的(在阵列级别)。这意味着尽管。为ESXi主机提供了200GB,实际上只有100GB可用。但是,只有阵列具有此知识。我们发现许多虚拟机由于磁盘空间不足而被暂停。尽管这可能是根本原因,所以我们的首要行动是在后端分配更多的存储,以解决此问题。
解决此问题(简单的UI更改)并且暂停的VM成功重新启动后,我们回到了原始问题。我们将虚拟磁盘从损坏的虚拟机挂载到正在运行的虚拟机,发现磁盘上没有分区表。我们没有可用的十六进制查看器,因此必须假定磁盘现在为空。
监视系统向刚停止响应的新VM发出警报。这很棒,因为由于磁盘空间问题,VM的负载在几分钟前才变得无响应,因此,很快发现此新VM的事实表明良好的监视管理。
我们打开了一个控制台,检查了客人,并看到了上面的屏幕抓图。
- 在此阶段,我去了服务器故障聊天室,看是否可以识别该程序,而我的存储同事检查了所有虚拟层日志和事件,以确保我们所在区域没有运行存储操作。
- 我们应该做的是挂起VM,允许挂起文件被写出,然后分析转储以查看是否可以识别正在运行的程序。将VM挂起至核心PDF VMware KB
归根结底,我们知道,虚拟基础设施工具不会像上述那样在来宾中报告。我们可以看到没有安装ISO,也没有针对VM记录任何事件。我们可以看到虚拟机不是“硬重启”,而是软重启(这对于基础架构是不可见的)。我们知道这不是存储方面,因为我们已经排除了这一点。我们怀疑它不是自动化的,因为它是在特定VM上几个小时内发生的。我们猜想这不是恶意的,因为如果控制台是控制台,为什么控制台会报告Disk Wipe :)
因此,结论是用户启动了磁盘擦除。这是我调查的结果,但我希望您觉得它有用。
得到教训:
- 备份并测试您的还原
- 确保所有用户(特别是admin用户)都知道他们正在精简配置的环境中工作,并应避免诸如写出磁盘格式化之类的事情(即,写负载为1)。
- 拥有良好的监控系统。
- 对我来说,这是一个新的想法:在任何大型虚拟环境中,都准备好一个工具VM,甚至关闭电源,并安装诊断工具;性能,网络存储。如果可用,我们可以在损坏的磁盘上安装并执行十六进制转储,以查看它是否确实是空的,或者只是缺少mbr。我们还可以看到它是否写有1。