我对按名字,姓氏和出生年份跨2个数据集链接记录感兴趣。使用EM算法可能可行,如果可以,怎么办?
以第一个记录中的以下记录为例:Carl McCarthy,1967。我将搜索第二个数据集中的所有记录,并在第一个名字和Carl之间分配一个jaro-winkler距离,在姓和麦卡锡之间分配一个jaro-winkler距离。这些距离是概率,出生年龄之间的距离也是概率。我们将这3个概率(乘以平均值)相乘为1。
现在是决策规则部分。让我们对所有概率从最高到最低进行排名。首先,我们希望P(第一个匹配项)> =阈值。其次,我们还希望P(第二次匹配)/ P(第二次匹配)> =如果P(第二次匹配)阈值存在。第三,我们希望第二个数据集中的第一个匹配项与Carl McCarthy,1967年的第一个数据集中的匹配人数不超过1个。
如何确定这些阈值?
我更喜欢Stata和/或Perl中的方法。
参见,例如:
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1479910/pdf/amia2003_0259.pdf
(尽管如此,我仍然没有完全理解为什么或如何,以及输入和输出是什么,以及假设和约束的严格性)。