1
重复数据删除的最新技术
记录重复数据删除中最先进的方法是什么?重复数据删除有时也称为:记录链接,实体解析,身份解析,合并/清除。我知道例如CBLOCK [1]。 如果答案中还包含对实现该方法的现有软件的引用,我将不胜感激。例如,我知道Mahout实现了树冠群集。还有使用Lucene 的Duke。 有许多用于重复数据删除的商业系统。了解它们的工作方式和效率将非常有价值。 我对单个数据集中的重复数据删除以及来自不同来源的多个数据集之间的链接都感兴趣。效率和处理大量数据的能力也很重要。 [1] CBLOCK:用于大规模重复数据删除任务的自动阻止机制