Questions tagged «deduplication»

重复数据删除是查找和删除重复文件。



3
如何对40TB的数据进行重复数据删除?
我继承了一个研究集群,该集群在三个文件系统中拥有约40TB的数据。数据可以追溯到将近15年,而且由于研究人员出于不同的原因互相复制数据,然后挂在副本上,因此很可能存在大量重复数据。 我知道有关fdupes和rmlint的重复数据删除工具。我正在尝试找到一个适用于如此大的数据集的数据库。我不在乎是否需要数周(甚至数月)来爬网所有数据-无论如何,我可能都会限制它以方便在文件系统上使用。但是我需要找到一种在某种程度上对RAM超高效的工具,或者可以将所需的所有中间数据存储在文件中,而不是RAM中。我假设如果我将所有这些数据作为一组爬网,我的RAM(64GB)将用光。 我现在正在900GB树上试验fdupes。这是整个过程的25%,RAM使用率一直在缓慢增长,现在达到700MB。 或者,是否有一种方法可以指导进程使用磁盘映射的RAM,以便有更多可用空间,并且不使用系统RAM? 我正在运行CentOS 6。


3
是否有用于Windows的压缩程序或存档程序也可以进行重复数据删除?[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新的问题,所以这是对话题的超级用户。 3年前关闭。 我正在寻找一个可以对正在归档的文件执行重复数据删除(dedupe)的归档程序。解压缩档案后,软件会放回压缩过程中删除的所有文件。 到目前为止,我发现: http://www.exdupe.com/ http://archiver.reasonables.com/ 有人知道吗? 这可能是7-zip的绝佳补充。


7
重复数据删除方法
我只想在多台计算机上备份和存档文件。不幸的是,这些文件有一些大文件,它们是相同的文件,但在不同的计算机上存储的方式不同。例如,可能有几百张照片作为临时备份从一台计算机复制到另一台计算机。现在,我想建立一个通用的文件存储库,不再需要同一张照片的多个副本。 如果我将所有这些文件都复制到一个目录中,是否有一个工具可以检查并识别重复文件,并提供一个列表,甚至删除其中一个重复文件?

5
免费重复的mp3查找器[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新的问题,所以这是对话题的超级用户。 5年前关闭。 有时候,我通过分析内容使用了mp3的重复文件查找器。不幸的是它不是免费的,并且共享软件有很多限制。 是否有任何免费软件/ OSS可以检测和删除重复的歌曲?

3
使用NFS挂载时,如何在目录中有两个同名文件?
我有一个C ++应用程序测试,该测试在NFS挂载的目录中创建10,000个文件,但是我的测试最近一次失败,因为一个文件在同一目录中两次出现相同的名称,而其他所有10,000个文件却出现了两次。这可以在Linux Centos v4或v5(目录已安装NFS)上看到,而在磁盘所在的主机上看不到。 甚至怎么可能在同一目录中有两个具有相同名称的文件? [centos4x32 destination] ls -al ./testfile03373 -rwx------ 1 user root 3373 Sep 3 03:23 ./testfile03373* [centos4x32 destination] ls -al ./testfile03373* -rwx------ 1 user root 3373 Sep 3 03:23 ./testfile03373* -rwx------ 1 user root 3373 Sep 3 03:23 ./testfile03373* [centos4x32 destination] ls -al *testfile03373 -rwx------ 1 user …

1
查看数据集上的ZFS重复数据删除率
我有一个由多个数据集组成的容器,其中只有一个被配置为使用重复数据删除。 如何查看此数据集的比率?我得到了整个游泳池的1.00倍的比例,但我想这只是报告坦克中的比例,这没什么(我只有坦克中的数据集)。

2
用于在缓存搜索结果时删除完全重复文件的程序
我们需要一个Windows 7程序来删除/检查重复项,但我们的情况与有足够程序的标准程序有些不同。 我们在几个磁盘上有一个相当大的静态存档(集合)照片。我们称之为Disk A..M。我们还有一些磁盘(我们称之为磁盘1..9),其中包含一些可在磁盘A..M上找到的重复项。 我们想在我们的系列中添加新磁盘(N,O,P ... aso。),它将包含来自磁盘1..9的照片,当然,我们不希望任何照片有两个(或更多) )次。 当然,从理论上讲,任务可以通过常规文件重复删除来解决,但所需的时间将非常长。 理想情况下,AFAIS现在,真正的解决方案是扫描磁盘A..M的程序,将照片的文件大小/哈希值存储在索引数据库/文件中,并检查新磁盘(1 .. 9)针对这个数据库。 但是我很难找到这样的程序(如果存在的话)。 其他注意事项: 我们认为磁盘A..M(集合)上没有任何重复 文件名可能会更改 我们对近似(模糊)比较不感兴趣,这可以在一些照片比较程序中找到。我们寻找完全重复的文件。 我们不怕命令行。:-) 我们需要在Win7 / XP上工作 我们(当然)更喜欢免费软件

4
存在重复名称解决方案
我有大约70个与完全相同的硬件。我决定自动开启和关闭。我拿了一台电脑。这就是我所做的: 更改了BIOS配置,以便在我打开AC开关时,电脑正在唤醒 已安装Windows XP并进行配置,以便我可以关闭remotelly,将工作组名称更改为“WG1”,并将PC名称更改为“ExamPC” 然后创建了这台电脑的acronis备用图片 我在几台PC上安装了这个图像并尝试进行测试 一切顺利,直到窗户打开。问题是,所有经过测试的PC几乎同时启动了Windows,并且所有这些都出现了错误Duplicate name exist。 我无法弄清楚任何解决方案。有什么建议?

4
两组联系人的重复数据删除
我们的一位用户在他的电子邮件中有两组联系人:7000左右的旧邮件系统,甚至更多的是他当前的Apple地址簿。我们要做的是将两组联系人变成类似的格式(.csv,.xls,等等)并进行比较以查找重复项。我怀疑较大的集合包括较小集合中的所有条目,但我想用某种检查工具证明,而无需手动滚动列表。 任何人都可以推荐任何工具来做这样的事情吗?

1
从1列中删除重复项与多行中的名称相关联[重复]
这个问题在这里已有答案: 如何删除excel 2007 2答案 中的重复记录 我正在尝试创建一个数据透视表来计算一个人参加过的活动数量。在下面的示例中,我想删除与特定人员相关的重复项。 乔伊斯被正确列出,但沙龙被列为参加第一场比赛,两次。在数据透视表中,这将给出她参加两个事件的计数,而实际上她将因参加第一场比赛而获得两次奖励。 吉姆也是如此,他被列入参加第1次会议和第2次会议,两次。 如何删除与个人关联的重复项,并且不会完全从列中删除重复项(只能列出1个会议1)。我尝试突出显示名称和事件,删除重复项,它似乎适用于某些数据,但是类似3,000行的东西没有在它们旁边的事件列表的全名。 任何帮助将不胜感激! Excel表:

1
备份期间避免重复文件
我正在将2个驱动器备份到外部备份驱动器。两个源驱动器之间有很多重复的文件(名称/大小)(用于工作)。源驱动器之一已备份到目标驱动器。我想将第二个源驱动器备份到相同的目标驱动器,不同的目录,但如果目标驱动器上已经存在任何文件,则不包括任何具有相同名称和大小的文件。是否有一个备份或复制程序可以索引目标驱动器,然后检查每个源驱动器文件的索引,以防止重复的备份文件分散在目标驱动器上? 谢谢。 布鲁斯
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.