既然Windows Server 2012带有针对NTFS卷的重复数据删除功能,我很难找到有关它的技术细节。我可以从TechNet文档中推断出重复数据删除操作本身是一个异步过程-与SIS Groveler过去的工作方式不同-但实际上没有有关实现的详细信息(使用的算法,所需的资源,甚至是性能信息)注意事项不过是一堆拇指法则建议)。
非常感谢您提供的见解和建议,将其与Solaris的ZFS重复数据删除效率进行比较,以应对一系列情况,将是一个很棒的选择。
既然Windows Server 2012带有针对NTFS卷的重复数据删除功能,我很难找到有关它的技术细节。我可以从TechNet文档中推断出重复数据删除操作本身是一个异步过程-与SIS Groveler过去的工作方式不同-但实际上没有有关实现的详细信息(使用的算法,所需的资源,甚至是性能信息)注意事项不过是一堆拇指法则建议)。
非常感谢您提供的见解和建议,将其与Solaris的ZFS重复数据删除效率进行比较,以应对一系列情况,将是一个很棒的选择。
Answers:
正如我所怀疑的那样,它基于VSS子系统(source),这也解释了它的异步特性。重复数据删除块存储在中\System Volume Information\Dedup\ChunkStore\*
,设置在中\System Volume Information\Dedup\Settings\*
。这对备份软件与此类卷的交互方式有重大影响,在链接的文章中对此进行了解释(简要说明:无重复数据删除支持,备份将与以往一样大小,有了重复数据删除支持,您将仅备份较小的重复数据删除商店)。
至于所使用的方法,我能找到的最好的方法是Microsoft研究人员于2011年在Usenix FAST11会议上发表的研究论文(来源,全文)。第3.3节介绍了主存储中的重复数据删除。该数据似乎已用于NTFS重复数据删除功能的开发中。使用了这个报价:
可变大小的内容定义块的规范算法是Rabin Fingerprints [25]。
论文中有很多数据需要筛选,但是他们使用的工具集的复杂性以及我们在2012年就已经知道的功能,强烈暗示了本文的推理是用来开发这些功能的。没有msdn文章无法确定,但是这与我们目前可能获得的结果非常接近。
与ZFS的性能比较必须等到基准测试人员完成后才能进行。