什么是“重复数据删除”?


8

我的意思是,我可以查找字典定义,但是为什么每个人都突然参考虚拟磁带库谈论它?这里有什么“新”内容,所以最近有很多新闻?

Answers:


14

在重复数据删除中,您可以查看数据集的内容,记下存在的所有重复位,并仅将数据存储一次,然后用指向该副本的指针替换所有其他那些数据副本。这对于备份特别有用,因为在备份服务器之类的东西时,很多数据都是相同的。想象一下,例如,您要备份1,000台Windows服务器-这些盒子上的许多内容都是相同的。

重复数据删除之所以如此流行,有以下三个原因:

  1. 最近,每个人都着迷于构建利用异地服务器的灾难恢复解决方案。为此,您必须将大量生产数据复制到远程站点,带宽是一个巨大的问题。您必须复制的数据量的任何减少都会有很大帮助。

  2. 由于更便宜的存储和保留记录的多行业需求,公司保留的数据量呈爆炸式增长。

  3. 相对而言,该技术最近达到了最佳效果。很长时间以来,我们就一直在进行重复数据删除(单实例存储等)的工作,但仅在去年左右,我们才看到真正的重复数据删除可以显着减少主流存储量。


2
我还要补充说,重复数据删除解决方案的成本正在下降,因此供应商可以更轻松地销售其优势-如果易于销售,供应商将更多地谈论它...我还没有注意到专门针对虚拟磁带的讨论库,而不是其他备份方法,但我想这是一个将两者的优势一起推向市场的机会。
威廉

1
@威廉:是的,确切地说,我说的是“好吃的地方”,但我没有说清楚,因此感谢您指出这一点。当然,成本已经变得足够低,我们中的许多人都可以找到我们可以负担得起的重复数据删除解决方案。
icky3000

0

在我公司与Netapp一起工作中发现的一件事是,重复数据删除实际上只有在对齐驱动器的情况下才能在VM环境中很好地工作。这对我们来说是个问题,因为我们有很多Windows Server 2003计算机,而且没有驱动器对齐。这意味着,如果驱动器正确对齐,则几乎无法恢复四分之一的空间。

有人告诉我们,一旦驱动器正确对齐,我们应该能够使用dedup回收40-60%的空间。


关于NetApp具体实现的问题,该实现使用(出于其他完全可以理解的原因)4 KB的静态块大小。替代方法是不需要大小对齐的可变大小的内容定义的块。
dmeister
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.