Cliffhanger：备份是正确的…这里…是吗？

28

在我的工作中，备份的优先级非常低。备份策略是在不久前实施的，从那时起就一直假设备份很好。如果您问系统管理员，他们会说一切都已备份。

但是，当您要求进行特殊备份时，一半时间不存在：

磁盘已满
磁带失败
好像有人禁用了备份作业
网络连接出现故障
我们几年前订购了该磁盘，但财务部门尚未批准该采购订单
文件已损坏
文件包含错误的数据库
仅事务日志备份（没有完整备份则无用）

几周前，灾难真的来了，因为其中一台服务器丢失了太多的RAID磁盘。幸运的是，如果您尝试了很多次，那么一个磁盘仍然足以复制数据。

但是即使在那场灾难之后，我似乎也无法说服系统管理员来改善这种情况。所以我想知道，有什么技巧可以打开人的眼睛吗？在我看来，我们正沿着悬崖的边缘行走。

backup

— 安多玛
source

17

因此，您说的是，您的系统管理员不仅不够胜任以致无法失去RAID集，而且他们也毫无用处而没有该系统的备份？听起来是获得一些新管理员的一个很好的案例。

— PowerApp101

24

您总是必须从顶部修复这些问题。

当前的备份策略是否得到管理层的支持和理解？如果没有，那就没用了。

高管管理层需要了解问题和涉及的风险（丢失为合法生存而需要合法携带的财务数据，或者需要花费数年时间收集的客户数据？），并在决定采取行动或决定让某人（例如您）采取行动。

如果您无法进行管理，请尝试使用业务总监或其他财务职位，在这些职位中，数据检索及其完整性对于公司报告至关重要。如果需要的话，他们反过来可以“开始风暴”。

— 奥斯卡·杜韦伯恩（Oskar Duveborn）
source

我完全讨厌工作政治，人们讨厌“开始暴风雨”，但是如果您说的是“登顶”和其他“暴风雨”发车人的真实情况，那可能是最好/唯一的方法。

— 匿名co夫2009年

同意，它会吹（没有双关语）。这只是有时必须要做的事情之一，尽管成为暴风雨发动者既烦人又冒险。但是，当涉及到这样的关键问题时，最多有三种选择：忽略，离开或攻击。而且，忽略这种缺陷听起来并不好。

— Oskar Duveborn

14

从哪里开始？这是一场灾难，等待发生。Sysadmins的主要工作功能是确保备份和恢复数据。其他一切都是次要的。不，如果不是，那就是。

您可以执行以下几项操作：

跟踪KPI进行还原。应该有可能生成一个报告，显示成功执行了多少次还原请求。少于100％的任何东西都应该彻底检查。管理层喜欢举报，这是确凿的证据。
对于所有备份和还原操作，应有记录的程序，包括所有系统及其备份策略，磁带轮换，时间表，升级路径，测试还原等。请查看它们。
与系统管理员联系，并表达您的疑虑。备有恢复无效的证据。如果没有喜悦，那就往前走。

认真地-大惊小怪。这样的东西可能会破坏公司。

— PowerApp101
source

只是不要忘了在您的3次尝试的“统计数据”上使用beta分布：-P stats.stackexchange.com/q/47771/9487

— Tobias Kienzler 2013年

5

提出（至少）年度灾难恢复测试。成功执行测试所需的工作应显示出缺点。

— 坚硬
source

5

在我工作的地方，我们有一个非常出色的IT部门，每年他们都会在欧洲各地的每个办公室聚会，并在数据中心的“租用服务器”上建立“恢复高峰”，有效地模拟了如果员工有一天上班并发现晚上办公室烧毁了。

让大老板参与进来，提醒他，如果灾难来袭，那年他将失去奖金（或更糟糕的是！），因此组织类似的灾难恢复工作可能是明智的。它不应该花费很长时间或花费很多-管理员将他们的异地备份磁带带走了，并被告知要从他们那里创建一个相同的办公环境。

然后坐下来观察IT情况如何好转-一旦管理层意识到公司数据接近永久丢失的危险，火花就会飞扬（来自战略性地放置在上述管理员中的火箭）

— gbjbaanb
source

1

太棒了！

— 奥斯卡·杜夫伯恩

4

责怪管理员很容易-但是奥斯卡（Oskar）说的很对：这些事情都是从高层开始的。如果管理者不愿意花大钱来优先考虑备份，那么系统管理员通常就不走运，并且会利用自己拥有的资源来尽力而为。

关键是，如果您是那些不幸的管理员之一（而我曾在这艘船上进行过一些客户互动活动），则是确保您反复以简明的方式确认对管理的简要介绍，对企业的风险。

我的策略是不断地解决问题。如果这样做，有时问题会得到解决，但这主要是因为我报告的任何人都不能躲在“我从未被告知”的借口后面。作为顾问，我通常可以做得更好。我可以让我的老板向更多高级管理人员介绍情况，而不是存在漏洞。这将责备分散开来，或者至少将其集中在比我更高的水平上。

同时，您必须具有创造力，并努力使用客户可以提供的任何资源来最大程度地降低风险。

尽管在某些情况下管理员可能是有罪的，但管理人员始终要负责：要么了解风险，但没有采取足够的措施来减轻风险，要么聘用没有提醒他们注意这些风险的人员。

— 大卫·麦金托什（David Mackintosh）
source

3

我负责分布在英国西北部的约200台服务器，这显然太多了，无法手动检查。

我对备份进行了配置，以使其在运行时运行一个（VBScript）脚本，该脚本可查看备份日志，确定备份是否有效，并将包含备份结果的记录写入中央数据库。然后在总公司运行一个脚本，该脚本查询该数据库，并向我显示一个站点列表，其中备份报告错误或该站点没有报告。

最终结果是，当我坐在办公桌前时，我会列出所有需要检查备份的站点。

所有这些的要点是，默认假设是备份失败，并且仅当我的VBScript未检测到错误并将此结论写入数据库时，才认为备份可以正常工作。这样可以确保备份失败不会被忽略。

一些服务器使用Backup Exec，一些服务器使用NTBackup，而另一些服务器只是将其文件复制到网络中的另一台服务器。服务器执行什么类型的备份都没有关系，因为很容易调整VBScript以检查错误。我的脚本实际上是非常基本的，它只是将备份报告作为文本文件打开，并抓紧诸如“安装失败”，“录像带已满”，“ CRC错误”等短语。我相信专业的程序员会做到这一点精干的工作。但是，整个过程既简单又健壮，从某种意义上说，它是主动的，无论我是否想要查看备份失败报告，只有当我有意识地决定忽略该报告时，我才会注意到错误。

JR

PS 99％的备份失败是由于用户忘记更改备份磁带。你不只是爱lusers :-)

— 约翰·雷尼
source

还是机器人放下了磁带（该死的机器人）^^（发生的次数超出了人们的想象）

— Oskar Duveborn在2009年

2

未经测试的备份是没有任何备份。

— 戴夫·切尼
source