如何备份20 TB以上的数据?


86

我工作的公司有一个NAS服务器,用于存储摄影会话。每个会话约为100gb。在过去的几年中,该服务器已积累了10 TB以上的数据,并且我们的照片拍摄数量呈指数增长。我估计到明年年底,该NAS上将存储20 TB以上的存储空间。当前,我们正在使用Symantec BackupExec的LTO-5磁带将此服务器备份到磁带上。由于该服务器的大小已增加,因此该服务器的完整备份不会在一夜之间完成。有人对如何备份此数据量有什么建议吗?我们应该将其备份到磁带吗?还有其他更好的选择吗?


36
为什么每晚都要执行完整备份?为什么不每周运行一次完整备份,而每周剩余六天运行增量备份?
joeqwerty

9
那就是我们正在做的,对不起,我没有提到……每周的工作量是未完成的。
Jesus Fidalgo

6
每周需要完成一整夜吗?对于足够大的数据集,每周花费超过24小时的情况并不罕见。
Stefan Lasiewski

2
您正在使用哪种类型的NAS?
ewwhite

6
您确定拍摄的照片数量成倍增加吗?
gerrit 2012年

Answers:


114

您需要退后一步,不要再想“我需要备份的NAS上有20TB!” 并制定一种考虑到数据性质的存储策略:

  • 它来自哪里,您将获得多少新数据?(您的问题中有此内容)
  • 拥有数据后如何使用它们?人们在编辑图片吗?您保留原始文件并生成编辑版本吗?
  • 您需要将所有数据保留多长时间?人们还在对2年前的图片进行更改吗?

根据最后两个问题的答案,您可能需要的不是完全不同的备份系统,而是更多的归档系统。

静态数据(例如,您保留“以防万一”的2岁图片)不需要每天晚上或每周都进行备份。您实际执行的操作可能会更复杂,但是从概念上讲,所有旧图片都可以写到磁带上(多份!),并且不再备份。

根据您的评论,还有一些其他想法:

  • 由于您保持了每张照片的原始图像不变并可以进行复印,并且假设至少有一些原始图片已过时,因此您可以将需要备份的数据量减少一半。

  • 如果仍然无法在任何时间范围内完成完整备份,则加快处理速度的常用方法是先进行磁盘到磁盘备份,然后再将备份集复制到磁带上。


1
原始照片保持不变,然后使用另一张照片拍摄副本进行编辑。数据可能需要保存大约2年。
Jesus Fidalgo

20
+1说得好。总的来说,我对备份和存档之间的区别了解得很少感到惊讶。我对系统和临时数据(例如电子邮件和文档)进行了完整和增量备份,但对我的摄影作品进行了存档(1.2TB并在不断增长:-)。希望我也可以为磁盘间建议再加上+1。
Ex Umbris

8
+1我敢打赌,NAS上80%的数据不会再使用一次。
Stefan Lasiewski

+1最好的选择是每天甚至每小时一次磁盘到磁盘增量转移以捕获更改,然后每周或每半周将完整或增量备份发送到存档或异地提供者/位置。过去,我们每15分钟对SQL文件进行一次增量备份,以减少灾难恢复情况下的数据丢失量。
布伦特·帕布斯特

12

您有两种选择:

选项1:

  1. 购买另一台NAS
  2. 授予您的用户RO对new_NAS的访问权限
  3. 将所有2年以上的文件移至new_NAS
  4. 像往常一样备份old_NAS
  5. 每6个月将2年以上的文件移至new_NAS

选项2:

  1. 购买另一台NAS
  2. rsync每小时运行一次:old_NAS-> new_NAS

    或者,最好使用rdiff-backup之类的工具,该工具会rsync +保持文件更改的增量(您可以还原文件的旧版本)

    rdiff-backup  user1@old_NAS::/source-dir    user2@new_NAS::/dest-dir
    
  3. 每6个月清理一次运行如下内容的旧文件:

    rdiff-backup --remove-older-than 2Y    old_NAS::/dest-dir
    

2

为什么备份必须在一夜之间完成?文件服务器性能?您也许可以限制备份软件的带宽,以限制白天的影响。或在NAS上专用一个接口与磁带机对话,以限制对其他流量的影响。

您可以在周末运行完整转储,而仅在一周中进行增量运行吗?如果问题出在周末没人更换磁带,那么便宜的磁带库/自动更换器的成本要比付钱给别人更换磁带便宜得多。

您是否可以将数据分成多个组,这些组足够小以在备份窗口中完成?

我们的NAS上大约有50 TB的数据,使用2个磁带驱动器要花费整整一周的时间来转储整个数据(一个卷本身要花费近一周的时间,因为它包含许多微小的文件)。我们要做的是将数据复制到另一个NAS。我们的辅助NAS位于现场(但与主NAS位于不同的数据中心),因此我们仍将数据假脱机到磁带上以进行异地备份。我们从该辅助NAS运行备份,因此备份不会降低任何人的工作速度。

如果您可以将辅助NAS放置在足够远的地方,那么它可以作为您的备份,而无需磁带。


1

我只是对每个拍摄时段的大小有所疑问,真的是每次100GB吗?贵公司每月要进行几次会议?

由于您主要存储的是不会经常使用的旧会话,等等,并且可能不需要经常恢复该信息,因此建议您使用某家公司的服务来为您完成这项任务。

例如,使用Amazon Glacier这样的在线服务存储这些20TB的存储每月将花费200美元以上。如果您需要经常检索那些归档文件,或者甚至要完全恢复,则将遇到一些时间/成本约束。如果您只是“确定要存储”这些东西而已,也许使用第三部分可以使您的生活更轻松(甚至比购买其他NAS,磁带等便宜)


1
每个会话100 GB对我来说听起来有点高,但这并不是不合理的。我以前通常在工作时使用32 GB以上的会话,而我们的设备是中等级别的。
汤姆·马瑟纳尔

1

full backups of this server are not completing overnight
然后尝试增量备份?每xx天进行一次完整备份,其余部分进行增量备份。

硬盘价格便宜,比磁带快,可用于备份。

此外,现在还有很好的云备份替代方案,因此不需要继续添加更多和更快的磁带。
例如:


查看评论-尚未完成的每周填充。此外,为20TB数据进行云备份...不是一个好主意。Amazon Glacier的“便宜”选项每年将花费约2500美元,而检索所有这些数据将花费约36,000美元。
HopelessN00b

这实际上不是很多。
Sirex 2012年

1
我想这是一个意见问题,如果相对于20TB相对安全和完全免维护的存储来说,每年$ 2400的价格是很多。没有功耗,没有冷却,没有故障的硬件,没有SLA,不占用机架空间。与大多数系统一样,您应该期望大约进行0次完全恢复操作。而且,如果您需要恢复,价格将比3600美元(约合1800美元)高(不确定从何处获得该数字)。
泰德·汉森

对于冰川而言,3.6万美元的价格非常接近。我粗略地估算为20TB的检索成本为$ 42K。它仍然不是很多。带宽更成问题。
Sirex

1

我认为,针对此问题的最佳解决方案是处理薪资数据,这将使您花费最少的精力来实施。

  • 最初,它与每天备份的其余服务器数据一起保存。我们对这些备份的保留期为13个月。

  • 一旦我们不再期望需要修改数据,(两个付款期之后,IIRC)就将数据(通过脚本)保存到常规备份中排除的存档卷中。

  • 存档卷每年备份到磁带,然后将磁带发送到Cintas进行无限期存储。

这使我们能够轻松,在线地访问这些不变的数据(因此,我们不需要在会计师想看东西的任何时候都挂上磁带),同时可以保存我们可能需要永久保存的不确定的异地数据档案,而不会破坏我们的备份系统。听起来类似的设置类型可能对您有用,尽管您可能想要调整保持在线的数据量,具体取决于您及时访问此数据的需求-20TB的企业级存储价格昂贵得多而不是将其存档到存储在异地保管库中的两三套LTO5磁带上。


0

也许您可以构建自己的Backblaze Pod135TB价格7384 $
单击此处以获取更多信息:Backblaze Pod建筑物信息

您可以购买所需的零件并自己建造。

也许您可以构建其中的3个,并保留2个在现场和1个在场外。然后,您可以将一个Pod用作“在线数据”,将第二个现场Pod用作第一个Pod的备份,将第三个非现场Pod用作紧急非现场备份。

每个Pod都有135Tb的存储空间,您甚至可以考虑保留更改历史记录...
135Tb / 20Tb = 19完整备份副本
或者,您可以保留10个完整备份以及数量可观的差异备份。

自然,如果您想要异地备份,则需要某种大带宽... :-)


5
如果您的数据和工作对您很重要,则不应尝试从头开始构建自己的Backblaze Pod。直到您意识到自己将所有鸡蛋都放在一个大篮子里,这似乎是一个好主意。更糟糕的是,该篮子尚未经过完整的整体测试。Backblaze秘诀是跨多个Pod的软件复制,它允许整个Pod无缝地失败。相反,我会推荐一个超级微存储服务器,centos,xfs和rdiff-backup。
bugaboo 2012年

-1

我的同事购买了Synology 8磁盘NAS。它运行混合RAID。几周前,他以每人89美元的价格从NewEgg购买了8台3TB希捷酷鱼。您可以通过GigaBit从生产NAS到该新NAS同步镜像。由于您仅转移差异,因此转移将花费更短的时间。然后,您可以使用备份NAS执行完整或增量备份。备份NAS的成本不到$ 2000。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.