Cliffhanger:备份是正确的…这里…是吗?


28

在我的工作中,备份的优先级非常低。备份策略是在不久前实施的,从那时起就一直假设备份很好。如果您问系统管理员,他们会说一切都已备份。

但是,当您要求进行特殊备份时,一半时间不存在:

  • 磁盘已满
  • 磁带失败
  • 好像有人禁用了备份作业
  • 网络连接出现故障
  • 我们几年前订购了该磁盘,但财务部门尚未批准该采购订单
  • 文件已损坏
  • 文件包含错误的数据库
  • 仅事务日志备份(没有完整备份则无用)

几周前,灾难真的来了,因为其中一台服务器丢失了太多的RAID磁盘。幸运的是,如果您尝试了很多次,那么一个磁盘仍然足以复制数据。

但是即使在那场灾难之后,我似乎也无法说服系统管理员来改善这种情况。所以我想知道,有什么技巧可以打开人的眼睛吗?在我看来,我们正沿着悬崖的边缘行走。


17
因此,您说的是,您的系统管理员不仅不够胜任以致无法失去RAID集,而且他们也毫无用处而没有该系统的备份?听起来是获得一些新管理员的一个很好的案例。
PowerApp101

Answers:


24

您总是必须从顶部修复这些问题。

当前的备份策略是否得到管理层的支持和理解?如果没有,那就没用了。

高管管理层需要了解问题和涉及的风险(丢失为合法生存而需要合法携带的财务数据,或者需要花费数年时间收集的客户数据?),并在决定采取行动或决定让某人(例如您)采取行动。

如果您无法进行管理,请尝试使用业务总监或其他财务职位,在这些职位中,数据检索及其完整性对于公司报告至关重要。如果需要的话,他们反过来可以“开始风暴”。


我完全讨厌工作政治,人们讨厌“开始暴风雨”,但是如果您说的是“登顶”和其他“暴风雨”发车人的真实情况,那可能是最好/唯一的方法。
匿名co夫2009年

同意,它会吹(没有双关语)。这只是有时必须要做的事情之一,尽管成为暴风雨发动者既烦人又冒险。但是,当涉及到这样的关键问题时,最多有三种选择:忽略,离开或攻击。而且,忽略这种缺陷听起来并不好。
Oskar Duveborn

14

从哪里开始?这是一场灾难,等待发生。Sysadmins的主要工作功能是确保备份和恢复数据。其他一切都是次要的。不,如果不是,那就是。

您可以执行以下几项操作:

  1. 跟踪KPI进行还原。应该有可能生成一个报告,显示成功执行了多少次还原请求。少于100%的任何东西都应该彻底检查。管理层喜欢举报,这是确凿的证据。

  2. 对于所有备份和还原操作,应有记录的程序,包括所有系统及其备份策略,磁带轮换,时间表,升级路径,测试还原等。请查看它们。

  3. 与系统管理员联系,并表达您的疑虑。备有恢复无效的证据。如果没有喜悦,那就往前走。

认真地-大惊小怪。这样的东西可能会破坏公司。


只是不要忘了在您的3次尝试的“统计数据”上使用beta分布:-P stats.stackexchange.com/q/47771/9487
Tobias Kienzler 2013年

5

提出(至少)年度灾难恢复测试。成功执行测试所需的工作应显示出缺点。


5

在我工作的地方,我们有一个非常出色的IT部门,每年他们都会在欧洲各地的每个办公室聚会,并在数据中心的“租用服务器”上建立“恢复高峰”,有效地模拟了如果员工有一天上班并发现晚上办公室烧毁了。

让大老板参与进来,提醒他,如果灾难来袭,那年他将失去奖金(或更糟糕的是!),因此组织类似的灾难恢复工作可能是明智的。它不应该花费很长时间或花费很多-管理员将他们的异地备份磁带带走了,并被告知要从他们那里创建一个相同的办公环境。

然后坐下来观察IT情况如何好转-一旦管理层意识到公司数据接近永久丢失的危险,火花就会飞扬(来自战略性地放置在上述管理员中的火箭)


1
太棒了!
奥斯卡·杜夫伯恩

4

责怪管理员很容易-但是奥斯卡(Oskar)说的很对:这些事情都是从高层开始的。如果管理者不愿意花大钱来优先考虑备份,那么系统管理员通常就不走运,并且会利用自己拥有的资源来尽力而为。

关键是,如果您是那些不幸的管理员之一(而我曾在这艘船上进行过一些客户互动活动),则是确保您反复以简明的方式确认对管理的简要介绍,对企业的风险。

我的策略是不断地解决问题。如果这样做,有时问题会得到解决,但这主要是因为我报告的任何人都不能躲在“我从未被告知”的借口后面。作为顾问,我通常可以做得更好。我可以让我的老板向更多高级管理人员介绍情况,而不是存在漏洞。这将责备分散开来,或者至少将其集中在比我更高的水平上。

同时,您必须具有创造力,并努力使用客户可以提供的任何资源来最大程度地降低风险。

尽管在某些情况下管理员可能是有罪的,但管理人员始终要负责:要么了解风险,但没有采取足够的措施来减轻风险,要么聘用没有提醒他们注意这些风险的人员。


3

我负责分布在英国西北部的约200台服务器,这显然太多了,无法手动检查。

我对备份进行了配置,以使其在运行时运行一个(VBScript)脚本,该脚本可查看备份日志,确定备份是否有效,并将包含备份结果的记录写入中央数据库。然后在总公司运行一个脚本,该脚本查询该数据库,并向我显示一个站点列表,其中备份报告错误或该站点没有报告。

最终结果是,当我坐在办公桌前时,我会列出所有需要检查备份的站点。

所有这些的要点是,默认假设是备份失败,并且仅当我的VBScript未检测到错误并将此结论写入数据库时​​,才认为备份可以正常工作。这样可以确保备份失败不会被忽略。

一些服务器使用Backup Exec,一些服务器使用NTBackup,而另一些服务器只是将其文件复制到网络中的另一台服务器。服务器执行什么类型的备份都没有关系,因为很容易调整VBScript以检查错误。我的脚本实际上是非常基本的,它只是将备份报告作为文本文件打开,并抓紧诸如“安装失败”,“录像带已满”,“ CRC错误”等短语。我相信专业的程序员会做到这一点精干的工作。但是,整个过程既简单又健壮,从某种意义上说,它是主动的,无论我是否想要查看备份失败报告,只有当我有意识地决定忽略该报告时,我才会注意到错误。

JR

PS 99%的备份失败是由于用户忘记更改备份磁带。你不只是爱lusers :-)


还是机器人放下了磁带(该死的机器人)^^(发生的次数超出了人们的想象)
Oskar Duveborn在2009年

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.