Questions tagged «disaster-recovery»

灾难恢复和备灾是系统管理的不幸方面。此标签应用于与从服务器或数据中心环境中的灾难性事件中恢复有关的计划,实施和最佳实践,以帮助您。

10
星期一早上的错误:sudo rm -rf --no-preserve-root /
请注意:该问题的答案和评论包含来自另一个类似问题的内容,该问题已受到外部媒体的广泛关注,但在某种病毒式营销方案中却被证明是骗局问题。由于我们不允许以这种方式滥用ServerFault,因此原始问题已被删除,答案已与此问题合并。 这是一个有趣的悲剧。今天早上,当我错误地执行以下命令时,我在生产服务器上做了一些维护: sudo rm -rf --no-preserve-root /mnt/hetznerbackup / /几秒钟后,当警告淹没我的命令行时,我并没有发现最后一个空格,我意识到我刚刚按下了自毁按钮。这是我眼中有些灼热的东西: rm: cannot remove `/mnt/hetznerbackup': Is a directory rm: cannot remove `/sys/fs/ecryptfs/version': Operation not permitted rm: cannot remove `/sys/fs/ext4/md2/inode_readahead_blks': Operation not permitted rm: cannot remove `/sys/fs/ext4/md2/mb_max_to_scan': Operation not permitted rm: cannot remove `/sys/fs/ext4/md2/delayed_allocation_blocks': Operation not permitted rm: cannot remove `/sys/fs/ext4/md2/max_writeback_mb_bump': Operation not …

13
工程师正在使用炸药清除我们办公大楼外的坚硬岩石。我们应该采取什么对策?
我们的大楼位于大约。距爆炸物100米。每天发生几次,确实使整个建筑物震动了很多。这将持续很多天,爆炸应该会变得更强大。 我们的服务器机房简直是花哨。其中一个将所有机架都放置在坚硬的混凝土上,而另一个则将其抬高(使电缆可以从下面穿过)。 是否有人对我们有任何提示,对策或最佳做法? 当前,我们正在考虑以下对策: 服务器机房状态灯(HD灯,电源等)的每日报告。 每晚检查最重要服务器上的磁盘扫描 订购额外的备用硬盘驱动器 编辑:这里有很多好的答案!但是,需要接受一个。在此编辑时投票最高的答案将被接受。


7
您在选择服务器托管公司时会寻找什么?
我们正在通过RFP流程来更改大多数服务器(约10个功能强大的主力服务器和数据库服务器)的托管公司。 当选择了现有公司时,我就不在该公司,过去我也没有与托管公司合作(以前的公司总是在现场提供硬件)。在接下来的几周中,我们将为每个公司进行实地考察。您通常会寻找什么类型的东西?有什么问题要问他们的现场工作人员等?任何可以帮助我评估和比较的东西。 大多数托管公司维护的VM Ware服务器场都具有通过光纤连接的DR站点。

4
我的服务器机房已满
我们最近经历了飓风,我们的服务器机房被淹没了。万岁保险。无论如何,我需要从一个硬盘驱动器上保存尽可能多的数据。是的,它淹没了两天的大部分时间。 我需要打开驱动器并确保它没有洪水吗?我是否应该卸下底部的板并弄干泡沫?我需要什么。 任何的意见都将会有帮助。 提前致谢!

10
卸载nfs服务器已消失的nfs挂载
服务器A曾经是NFS服务器。服务器B正在安装该服务器的出口。一切都很好。然后A死了。刚刚关闭。走了 消失了 但是,该文件夹仍安装在B上。我显然无法cd插入它或任何东西。但是umount /mnt/myfolder只是挂起就不会卸载。反正有没有卸载它而不重新启动B? 客户端和服务器都是Linux机器。

11
制定灾难恢复计划的最佳实践或资源?[关闭]
我的任务是领导一个项目,该项目涉及更新旧的,有些荒谬的灾难恢复计划。目前,我们只是在寻找DR的IT方面。他们最后一次这样做是通过组成一次灾难(数据中心被洪水淹没)并进行规划以排除所有其他灾难类型来设置范围。我想采取更全面的方法。我知道这是一个已解决的问题,其他组织也已编写了灾难恢复计划。 我们的计划是采纳我们的IT DR计划并继续前进,然后说:“嘿,这是我们在IT的DR计划中想要的,它与大学的其余部分保持一致吗?您是否已恢复服务优先级?想改变吗?” 我们有一个很好的主意,该计划的其余部分是什么,我们希望这一计划能顺利进行。 我正在寻找的是有关如何确定灾难恢复计划范围以及应该考虑哪些问题的指南。您是否有与DR计划开发相关的最喜欢的资源,书籍,培训?

5
BBWC:从理论上讲,这是个好主意,但是有没有人保存过您的数据?
我熟悉BBWC(电池支持的写缓存)的用途-甚至在使用优质UPS的情况下,它们也曾在我的服务器中使用过。显然存在无法提供保护的故障。我很好奇它在实践中是否真正提供了任何真正的好处。 (注意,我特别在寻找患有BBWC且发生车祸/故障以及BBWC是否有助于恢复的人的答复) 更新资料 收到反馈后,我越来越怀疑BBWC是否会带来任何价值。 为了对数据完整性有信心,文件系统必须知道何时将数据提交到非易失性存储(不一定是磁盘,这是我将要谈到的问题)。值得注意的是,将数据提交到磁盘后,会出现许多磁盘(http://brad.livejournal.com/2116715.html)。尽管可以合理地认为禁用磁盘上的缓存可能会使磁盘更老实,但仍然不能保证确实如此。 由于BBWC中的缓冲区通常过大,因此屏障可能需要将更多数据提交到磁盘,从而导致写入延迟:一般建议是在使用非易失性回写高速缓存时禁用屏障(并禁用on-磁盘缓存)。但是,这似乎破坏了写操作的完整性-仅因为非易失性存储中保留了更多数据并不意味着它会更加一致。确实,可以说在逻辑事务之间不进行划分,与其他方式相比,确保一致性的机会似乎更少。 如果BBWC在数据进入其非易失性存储(而不是提交到磁盘)的那一刻承认障碍,那么它似乎可以满足数据完整性要求而不会降低性能-意味着仍应启用障碍。但是,由于这些设备通常表现出与将数据刷新到物理设备一致的行为(带有障碍的速度明显较慢)以及禁用障碍的广泛建议,因此它们无法以此方式运行。为什么不? 如果将OS中的I / O建模为一系列流,则在某种程度上可以最大程度地减小由OS管理写缓存时的写屏障的阻塞效果-因为在此级别仅逻辑事务(单个流) )需要承诺。另一方面,一个不知道构成事务的数据位的BBWC必须将其整个缓存提交到磁盘。内核/文件系统是否实际上在实践中实现了这一点,将比我目前打算投入的工作多得多。 磁盘组合会告诉故障发生了什么,并且突然断电无疑会导致损坏-以及日记或日志结构化的文件系统在中断后无法完全执行fsck的情况下,更不可能发现损坏的发生,更不用说试图修复它。 就故障模式而言,根据我的经验,大多数突发性停电是由于市电中断而造成的(通过UPS和管理性关机可以轻松缓解)。人们将错误的电缆从机架中拔出,意味着数据中心的卫生性很差(标签和电缆管理)。UPS不能阻止某些类型的突然断电事件-PSU或VRM中的故障,带有障碍物的BBWC在发生故障时将提供数据完整性,但是这种事件有多普遍?从这里缺乏回应来看非常罕见。 当然,将容错能力提高到更高的堆栈中比使用BBWC的成本要高得多-但是将服务器实现为群集对于性能和可用性还有很多其他好处。 减轻突然断电的影响的另一种方法是实施SAN-AoE使这成为一个可行的方案(我对iSCSI的意义不大),但同样存在更高的成本。

2
从正在运行的Apache实例中检索RSA密钥?
我为SSL证书创建了RSA密钥对,并将私钥存储在中/etc/ssl/private/server.key。不幸的是,这是我拥有的唯一私钥副本。 然后我不小心覆盖了磁盘上的文件(是的,我知道)。 Apache仍在运行并仍在处理SSL请求,这使我相信恢复私钥可能会有希望。(也许在某处/proc或某处有符号链接?) 该服务器正在运行Ubuntu 12.04 LTS。

9
高可用性MySQL的体系结构,可在物理上不同的位置进行自动故障转移
我一直在研究数据中心之间MySQL的高可用性(HA)解决方案。 对于位于同一物理环境中的服务器,我更喜欢使用主动被动方法的具有心跳(浮动VIP)的双主服务器。心跳通过串行连接和以太网连接进行。 最终,我的目标是在数据中心之间保持相同的可用性水平。我想在两个数据中心之间进行动态故障转移,而无需人工干预,并且仍然保持数据完整性。 顶部将是BGP。两个位置的Web集群都有可能路由到双方之间的数据库。如果站点1上的Internet连接中断,客户端将通过站点2路由到Web群集,然后路由到站点1中的数据库(如果两个站点之间的链接仍然可用)。 在这种情况下,由于缺乏物理链接(串行),因此更可能出现大脑分裂的可能性。如果两个站点之间的WAN断开,则VIP最终将出现在两个站点上,在此各种不愉快的情况都可能导致不同步。 我看到的另一个潜在问题是,将来很难将此基础架构扩展到第三个数据中心。 网络层不是重点。此阶段的体系结构很灵活。同样,我的重点是提供解决方案,以维护数据完整性以及MySQL数据库的自动故障转移。我可能会设计其余的东西。 您能否在两个物理位置不同的站点之间推荐一种成熟的MySQL HA解决方案? 感谢您抽出时间来阅读。我期待着阅读您的建议。

9
文档手册与清单文档清单
过去,我曾与部门中的其他人讨论过文档,尤其是详细程度和要求。在他们看来,文档是X出问题时要执行的Y事情的简单清单。 我不同意。我认为这是假定IT中的所有问题都可以轻松归结为恢复过程的简单清单。我认为这完全忽略了情况的复杂性,并且由于该部门的其他人员并不总是对此问题有深入的了解(这就是为什么我要编写文档的原因-因此他们需要参考一些内容),文档应包括一些基本的背景材料,例如: 所讨论的(子系统)的目的 为什么以这种方式配置 实施设置/过程时发生的事件期望 可能导致程序失败的潜在问题 但是,我对此颇为不满,因此需要将我的文档重新编写为一种形式,该形式为“应用ABC的步骤才能解决问题X”。 我经常听到它需要放在一张纸上的哀叹。 尝试通过单页文档以这种方式向某人解释Squid ACL的配置,包括故障排除。那只是恢复等待清单中“等待写入”的六个文档之一。 我倡导的方法真的过分吗?还是他们说的对,我应该在这里管我的事,然后给他们写一个简单的清单?我担心的是,无论您编写过程清单的质量如何,它都无法真正解决需要SysAdmin仔细考虑的问题。如果您花时间做一份恢复程序清单,最终导致无法解决问题(由于文档的关注范围狭窄,由于文档中没有其他因素),并且您需要文档的目的是避免再次重新阅读手册页,Wiki和网站,那我为什么要进行这些动议呢?我是不是太担心了,还是这是一个真正的问题? 编辑: 当前部门中没有服务台职位。文档的读者将是其他管理员或部门负责人。

7
设置新的备份方案
我正在设计我的第一个备份方案。我是管理数据备份的新手,有些概念我还不太了解。这是到目前为止我得到的,以及将要使用的设备。 我将仅备份三台服务器,总数据约为200Gb。我将在周六每周进行一次完整备份,然后在周一至周五晚上进行差异备份。月末还将有完整备份,该备份将在异地存储以用于灾难恢复。 使用的设备:-8插槽磁带备份驱动器-LTO2磁带-具有Exchange和SQL代理的Backup Exec 12.5 我将使用两套磁带,第一套用于第一周,另一套用于第二周,每两周来回交替。 所以我的问题是,每组应该使用多少个磁带?由于备份驱动器最多可以容纳八盘磁带,我是否必须使用八盘磁带?如果我少放一点,会丢掉吗? 其次,由于每个工作日的差异备份最多最多只能达到5Gb左右,我是否需要在介质池中放入5个LTO2磁带(最多可容纳400Gb),每晚一盒?还是一个足够的,因为从理论上讲它可以容纳数周的差异? 我不明白的是,BE是每天选择新的磁带,还是只是继续添加到同一磁带上,直到磁带满了,然后再滚动到下一个磁带。 也许更容易问的问题是,如果您具有上面列出的备份设备和服务器,那么您的备份设计将是什么? 非常感谢....

6
如何从RAID 5配置中的驱动器故障中恢复?
今天早晨,我们的数据库服务器上的驱动器发生故障。驱动器阵列(3个磁盘)以RAID 5配置设置。 在等待更换驱动器时,我们正在准备恢复策略。用户正在继续在系统上工作,尽管速度非常慢(不知道为什么?)。 如何安装新驱动器-该驱动器的数据将根据奇偶校验自动重建,还是应该遵循另一过程? 编辑: 这是一个硬件RAID控制器。(感谢您到目前为止的回答,不胜感激)

4
IT主管没有备份,书面的DR计划[关闭]
已关闭。这个问题是基于观点的。它当前不接受答案。 4年前关闭。 已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 对于那里的IT经理来说,这是一个普遍的管理问题。 我们是一家小型公司,在colo客舱中大约有4台服务器。没有专职的IT经理。但是,我们确实有一个月度合同的人,而我正经历着一段糟糕的时光,让他分享这些计划的实际内容。我确定他有一个计划(并且计划可能在他的脑海中。),但是如果他被公共汽车撞到,那对我们没有好处。 你们将如何处理?他是一个长期的朋友,但我担心这对我们长远来说是危险的。我对此多次面对他,他告诉我不要担心,他已将其掩盖。 谢谢。

4
如何备份TRAC安装?
我们将单独的TRAC实例用作许多项目的票证系统,并且需要每天将它们移出现场几次以进行灾难恢复。 做到这一点的最佳方法是什么?是否有类似于svnsync的颠覆工具?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.