Questions tagged «deduplication»

19
有没有一种简单的方法可以用硬链接替换重复的文件?
我正在寻找一种简单的方法(一个命令或一系列命令,可能涉及find)来找到两个目录中的重复文件,并将一个目录中的文件替换为另一目录中的文件的硬链接。 情况如下:这是一个文件服务器,多个人在上面存储音频文件,每个用户都有自己的文件夹。有时,多个人拥有完全相同的音频文件的副本。现在,这些是重复的。我想使其成为硬链接,以节省硬盘空间。

1
如何在不使用btrfs复制数据的情况下复制文件?
我没有使用btrfs的经验,但是它被宣传为能够删除重复数据文件。 在我的应用程序中,我需要复制整个目录树。 据我了解,btrfs仅在某些后期扫描中进行重复数据删除,而不是立即进行重复数据删除。即使只是使用cp似乎也不会触发任何重复数据删除(至少df表明复制文件的大小增加了磁盘使用量)。 我是否可以完全避免移动数据并btrfs直接告诉文件在另一个位置重复,而实际上只是克隆其元数据? 从本质上讲,类似于硬链接,但具有独立的元数据(权限,修改时间等)。

2
是否有任何将btrfs CoW用作重复数据删除的重复数据删除脚本?
在Linux上寻找重复数据删除工具的地方很多,例如,参见此Wiki页面。 所有脚本几乎都只检测,打印重复的文件名或通过将它们硬链接到单个副本来删除重复的文件。 随着btrfs的兴起,将有另一种选择:创建文件的CoW(写时复制)副本(如cp reflink=always)。我没有找到执行此操作的任何工具,有人知道执行此操作的工具吗?

4
如何在许多大文件中找到重复的行?
我有约3万个文件。每个文件包含约10万行。一行不包含空格。单个文件中的行已排序并免费重复。 我的目标:我想找到两个或多个文件中所有重复的行,以及包含重复条目的文件的名称。 一个简单的解决方案是: cat *.words | sort | uniq -c | grep -v -F '1 ' 然后我会运行: grep 'duplicated entry' *.words 您看到更有效的方法了吗?

1
使用原始文件中的数据块对齐来制作tar(或其他)存档,以获得更好的块级重复数据删除?
如何生成tar文件,使tar文件的内容像原始文件一样按块对齐,因此可以从块级重复数据删除中受益(https://unix.stackexchange.com/a/208847/9689) ? (我是否纠正说tar格式没有任何内在因素阻止我们获得这种好处?否则,如果不是tar,也许是否有另一个内置了这种功能的存档器?) PS我的意思是“未压缩的tar”-而不是tar + gz或其他内容-未压缩的tar,请教一些技巧,以允许对齐文件块级别。AFAIRecall tar是为与磁带机一起使用而设计的,因此也许可以在文件格式中添加一些额外的位以进行对齐吗?我希望甚至可以有工具;)。据我所知,tar文件可以串联,因此可能会有技巧来填充对齐空间。

5
从包含时间戳的文件中删除重复的行
这个问题/答案为删除文件中的相同行提供了一些很好的解决方案,但是对我来说不起作用,因为否则重复的行都带有时间戳。 是否可以让awk在确定重复项时忽略一行的前26个字符? 例: [Fri Oct 31 20:27:05 2014] The Brown Cow Jumped Over The Moon [Fri Oct 31 20:27:10 2014] The Brown Cow Jumped Over The Moon [Fri Oct 31 20:27:13 2014] The Brown Cow Jumped Over The Moon [Fri Oct 31 20:27:16 2014] The Brown Cow Jumped Over The …

2
分区级别的重复数据删除
块级别或更详细的重复数据删除有哪些可用的解决方案? 有基于文件的文件-使用“写时复制”方法。 我正在寻找块级别的“写时复制”,因此我可以定期寻找公共块,或者-最好-文件的一部分,合并它们并标记为CoW使用方式。是否有类似的东西可用,还是仍然需要创建它?我不确定Btrfs重复数据删除是否在块/文件/子部分级别?有LessFS,但是我不确定它提供什么级别的重复数据删除?也许其他解决方案?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.