备份检查的最佳做法?


21

这是常见的情况,当管理员使系统自动备份而忘记了它时。仅在系统失败后,管理员才会通知备份系统之前已损坏,或者由于某些故障而无法恢复备份,并且他没有当前的备份可还原...那么,如何避免此类情况的最佳实践是什么?


我们在脚本中有备份监视功能……它与其他监视功能合并在一起,并每天发送给管理员。如果跳过了完全备份(或仅部分完成了备份),则电子邮件中会指出这一点。
哔哔

Answers:


27

进行消防演习...每隔几个月就要说一次XYZ系统发生故障...然后实际进行将其重新联机到新VM等的动作。这样可以保持诚实并帮助您捕获错误。


我们这样做是为了测试我们的可视源安全备份是否正常运行,这很幸运。
杰瑞德(Jared)'2009年

10

肥皂盒模式:开

我要说的是,没有定期测试的备份就这么简单是毫无价值的。

在我之前的工作中,我们制定了一项政策,即每6个月对每个系统(生产,测试,开发监视等)进行测试恢复。

这也是大多数初级管理员的工作,因此文档是最新的。Junior的定义是他/她在特定系统上要做的工作,有时(通常是很多时候)是由“组经理”完成的

我们有专用于此的专用硬件(一个Intel和一个IBM / AIX机器),除了磁盘空间之外,其他所有设备的规格都不高,因为我们不需要在还原的主机上运行任何实际的东西。

前两轮的工作量很大,但它使我们简化了还原过程,这是备份的重要组成部分。


7

由于您似乎是在指管理员没有注意到备份作业“中断”的事实,而并不是说备份工作无法正常进行,我建议在备份周围构建某种监视脚本。

在构建本地备份解决方案时,我将执行以下操作:

  • 构建脚本来备份您的数据。
  • 执行测试还原以确保脚本正确运行。
  • 在脚本中或通过其他方式,实现一种跟踪备份状态(成功,失败,运行,未运行)的方法。
  • 监视跟踪状态(电子邮件,数据库等)

一旦完成所有这些,您就可以了。要做的另一件事是执行常规测试还原。如果您有额外的硬件要捐给事业,那就是。

在我工作的地方,我们有一个热站点,每月一次,我们随机选择一个系统或数据库,然后转到热站点,对裸机进行测试还原练习,以确保恢复数据的能力。

老实说,如果您的数据对您非常重要,那么购买一些软件来管理您的备份将是您的最大利益。为此,有数百种产品,从便宜,简单到企业级。

如果您依靠crontab中运行的一组手写脚本来进行公司备份,那么迟早您可能会被淘汰。


4

我们的“生产”系统有60%大小的“参考”版本,我们将它们用于更改的最终测试,我们将“生产”备份恢复到这些系统-它测试备份,并确保两个环境彼此一致。


1

一种方法是编写“恢复”作业以使其定期运行的脚本,例如,一种从最新备份中获取特定文本文件并通过电子邮件将其内容发送给您的方法。如果可能的话,至少在某些时候,应该使用与创建或备份数据的盒子不同的盒子来完成此操作,只是为了确保在需要时它可以工作。好处是您可以确保加密/解密,压缩和存储机制都可以正常工作。

尽管从小型数据库或砖级邮箱备份执行某种类型的小规模恢复并肯定其中的内容是可能的,但对于诸如电子邮件和数据库服务器之类的专门备份,这涉及更多一点。

这种方法也不应取代定期的完整还原,以确保在紧急情况下可以恢复数据,而只是让您对日常备份作业的完整性更有信心。


1

执行测试还原时,在“看起来不错,已还原文件,似乎没有文件丢失,甚至大小都匹配”时,或者在“看起来不错,我启动了我的应用程序”时,我都不太满意。 ..不会崩溃,显示一些不错的数据”。

我想从头开始还原服务器/集群,然后将其实际用于生产。不是一分钟,不是一个小时,而是永久的。如果您声称还原成功,那么绝对没有理由不开始生产。这不是一些“肮脏”的系统,应该忘记它。这是真正的灾难之后您将要面对的系统。因此,如果它通过了“看起来不错”的阶段,请忍受它。隔夜备份。忘掉原来的那个。你可能发现使用这种方法的一些小问题,你将被迫解决所有问题。相同系统的下一次还原很有可能获得100%成功。

这包括您的备份软件和服务器。是的,您也需要还原它们。


没有预算购买专用硬件进行还原?

  • 指出您绝对需要预算。在每种情况下,请提醒决策者尚未进行有效的整个还原测试。(是的,收集证据掩盖你的屁股。艰难的世界。)
  • 在大多数组织中,有时业务需要将某些系统迁移到另一种硬件,因此要抓住机会。始终选择“从备份还原”方法进行迁移,假装您刚刚丢失了原始硬件。是的,这意味着更多的停机时间,对此感到抱歉。至少您将对自己的备份很有用。
  • 没有迁移吗?也许您可以借用一些硬件两周,然后执行两次还原测试(还原到借用的硬件,等待一个星期以上,从借用的还原到原始的,并继续使用)。通常,如果为某些新系统购买了新硬件,并且您安排得当,则可以轻松地借用它-通过提供全面测试两个星期的时间。如果新硬件与旧硬件不是100%相同,那将使您的测试更好。您如何知道在发生真正灾难时是否获得相同的硬件?
  • 您目前正在实施任何新系统吗?您现在可以测试还原吗?不要使用其他硬件,只要您有了新知识即可快速重新实施​​,就可以覆盖新系统。如果尚无重要数据,则此方法有效。再次,请使用已还原的版本进行生产,而不要使用新近重新安装的版本。

1
  1. 消防演习。
  2. 每6个月测试一次所有备份的策略是一个好主意
  3. 在进行测试时,您需要查看备份的每个应用程序或系统。理想情况下,应该在备份的服务说明或SOP(操作文档)中列出什么构成“成功”或“可恢复”备份,以及诸如保留时间,bladibla之类的其他详细信息。

您可能会发现,某些备份类型可以通过脚本(例如数据库)轻松地进行还原测试,而另一些则需要一些手动输入(Active Directory还原)。尽可能自动执行此操作,确保已建立某种报告,并确保“某人”也定期执行手动测试。隔离的环境(缩减后的产品副本)将使执行还原测试更加容易。


1
原谅这个问题,但是这个答案是否添加了尚未说的内容?
MadHatter在2013年

每6个月一次?我每几个星期做一次小型的。
tombull89

0

尽管我们不测试备份,但在开发BackupRadar.com的系统中确实具有集中式备份检查和报告组件。随时检查它是否对该组件有所帮助。它将成功/失败电子邮件的副本附加到备份策略中,如果备份软件也能够发送屏幕快照,则还将附加屏幕截图。

谢谢,帕特里克


-1

确保记录了备份活动,然后写一些内容(当然是perl)来解析那些日志以查找故障,将其提取出来并作为日常电子邮件发送。


2
这不能解决备份策略本身存在故障的情况。
杰瑞德(Jared)'2009年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.