统计和大数据 record-linkage

重复数据删除的最新技术

记录重复数据删除中最先进的方法是什么？重复数据删除有时也称为：记录链接，实体解析，身份解析，合并/清除。我知道例如CBLOCK [1]。如果答案中还包含对实现该方法的现有软件的引用，我将不胜感激。例如，我知道Mahout实现了树冠群集。还有使用Lucene 的Duke。有许多用于重复数据删除的商业系统。了解它们的工作方式和效率将非常有价值。我对单个数据集中的重复数据删除以及来自不同来源的多个数据集之间的链接都感兴趣。效率和处理大量数据的能力也很重要。 [1] CBLOCK：用于大规模重复数据删除任务的自动阻止机制

13 clustering data-cleaning record-linkage

使用EM算法进行记录链接

我对按名字，姓氏和出生年份跨2个数据集链接记录感兴趣。使用EM算法可能可行，如果可以，怎么办？以第一个记录中的以下记录为例：Carl McCarthy，1967。我将搜索第二个数据集中的所有记录，并在第一个名字和Carl之间分配一个jaro-winkler距离，在姓和麦卡锡之间分配一个jaro-winkler距离。这些距离是概率，出生年龄之间的距离也是概率。我们将这3个概率（乘以平均值）相乘为1。现在是决策规则部分。让我们对所有概率从最高到最低进行排名。首先，我们希望P（第一个匹配项）> =阈值。其次，我们还希望P（第二次匹配）/ P（第二次匹配）> =如果P（第二次匹配）阈值存在。第三，我们希望第二个数据集中的第一个匹配项与Carl McCarthy，1967年的第一个数据集中的匹配人数不超过1个。如何确定这些阈值？我更喜欢Stata和/或Perl中的方法。参见，例如： http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1479910/pdf/amia2003_0259.pdf （尽管如此，我仍然没有完全理解为什么或如何，以及输入和输出是什么，以及假设和约束的严格性）。

9 machine-learning stata expectation-maximization record-linkage perl

Questions tagged «record-linkage»