未知的工具正在擦除我们的虚拟机,我们无法对其进行标识


18

vSphere上Windows 2008 R2 VM的控制台视图显示以下屏幕:

程序屏幕截图

“操作2之2”“擦拭磁盘”

有人可以建议这个程序是什么吗?

有关此谜的一些信息:

现在已实现了许多虚拟机。症状是重启后出现“找不到操作系统”消息。

  • VM在ESXi上运行。VM正在特定的数据存储上运行
  • Netapp NFS在工作盒中安装磁盘不会显示分区表,还无法进行十六进制转储。
  • VM不是硬重置的,必须是操作系统启动的软重置
  • 没有安装iso,没有对VM的“非来宾”访问,因此需要是RDP或类似的名称
  • 整夜使用netapp备份软件执行备份
  • 所讨论的NFS在后端(阵列级别)进行了精简配置,并且在我们看到这些问题后就没有足够的空间。

1
您是否已确认没有配置任何可以执行此操作的PXE服务器?
2014年

@DAN VM重新启动时,没有拾取PXE-因此,除非找到非常有针对性的pxe设置,否则“找不到操作系统”。同样,NFS存储空间不足/ MAY /也是由该工具的完整磁盘写入引起的
Rqomey 2014年

1
这是否仅限于您的Windows VM或所有这些主机上仅有的VM?
MDMoore313 2014年

9
纯粹基于窗口的设计以及其中包含的字符串,以及一些类似的屏幕截图,看起来该工具是Acronis构建的。这是Acronis 为Seagate构建的工具的示例,该工具看起来非常相似(单击几次“ Next”(下一步)以查看它)。
Moshe Katz 2014年

1
我在Acronis Disc Director中看到了类似的ui布局。显然,它具有“清理磁盘”功能(用Google搜索),我从未使用过。它似乎正在您的访客上运行。您可以通过GUI对其进行配置(也许它也具有命令行exe),并且在重启时会发生这种情况。
Daniel F

Answers:


10

不幸的是,看起来我们可能没有深入了解应用程序的内容,但是为了从这次事件中获得一些价值,我想创建一个参考答案。这是以VMware和虚拟层管理为中心的。很多管理员处于隔离状态,无法快速访问访客或存储,这是给他们的:)

@MosheKatz发现,http://support.seagate.com/kbimg/flash/laptop/Laptop.swf似乎与实际应用最接近。

如果将来发生这种情况,应进行如下调查:

  • 您会注意到一些但不是所有VM都崩溃了。您怀疑这是由于存储问题引起的(通常是最可能的原因)
  • 首先尝试找出一个共同因素。是否所有崩溃的VM共享相同的数据存储?在这种情况下,它们是可以的,但是某些机器还可以,因此我们排除了明显的硬件问题。
  • 检查所有损坏的VM,以查看是否存在共同因素(时间,功能等)。在这种情况下,没有。
  • 检查其他异常事件。某物在这里升起了旗帜:

    • NFS存储是精简的(在阵列级别)。这意味着尽管。为ESXi主机提供了200GB,实际上只有100GB可用。但是,只有阵列具有此知识。我们发现许多虚拟机由于磁盘空间不足而被暂停。尽管这可能是根本原因,所以我们的首要行动是在后端分配更多的存储,以解决此问题。
  • 解决此问题(简单的UI更改)并且暂停的VM成功重新启动后,我们回到了原始问题。我们将虚拟磁盘从损坏的虚拟机挂载到正在运行的虚拟机,发现磁盘上没有分区表。我们没有可用的十六进制查看器,因此必须假定磁盘现在为空。

  • 监视系统向刚停止响应的新VM发出警报。这很棒,因为由于磁盘空间问题,VM的负载在几分钟前才变得无响应,因此,很快发现此新VM的事实表明良好的监视管理。

  • 我们打开了一个控制台,检查了客人,并看到了上面的屏幕抓图。

    • 在此阶段,我去了服务器故障聊天室,看是否可以识别该程序,而我的存储同事检查了所有虚拟层日志和事件,以确保我们所在区域没有运行存储操作。
  • 我们应该做的是挂起VM,允许挂起文件被写出,然后分析转储以查看是否可以识别正在运行的程序。将VM挂起至核心PDF VMware KB

归根结底,我们知道,虚拟基础设施工具不会像上述那样在来宾中报告。我们可以看到没有安装ISO,也没有针对VM记录任何事件。我们可以看到虚拟机不是“硬重启”,而是软重启(这对于基础架构是不可见的)。我们知道这不是存储方面,因为我们已经排除了这一点。我们怀疑它不是自动化的,因为它是在特定VM上几个小时内发生的。我们猜想这不是恶意的,因为如果控制台是控制台,为什么控制台会报告Disk Wipe :)

因此,结论是用户启动了磁盘擦除。这是我调查的结果,但我希望您觉得它有用。

得到教训:

  • 备份并测试您的还原
  • 确保所有用户(特别是admin用户)都知道他们正在精简配置的环境中工作,并应避免诸如写出磁盘格式化之类的事情(即,写负载为1)。
  • 拥有良好的监控系统。
  • 对我来说,这是一个新的想法:在任何大型虚拟环境中,都准备好一个工具VM,甚至关闭电源,并安装诊断工具;性能,网络存储。如果可用,我们可以在损坏的磁盘上安装并执行十六进制转储,以查看它是否确实是空的,或者只是缺少mbr。我们还可以看到它是否写有1。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.