使用EM算法进行记录链接

9

我对按名字，姓氏和出生年份跨2个数据集链接记录感兴趣。使用EM算法可能可行，如果可以，怎么办？

以第一个记录中的以下记录为例：Carl McCarthy，1967。我将搜索第二个数据集中的所有记录，并在第一个名字和Carl之间分配一个jaro-winkler距离，在姓和麦卡锡之间分配一个jaro-winkler距离。这些距离是概率，出生年龄之间的距离也是概率。我们将这3个概率（乘以平均值）相乘为1。

现在是决策规则部分。让我们对所有概率从最高到最低进行排名。首先，我们希望P（第一个匹配项）> =阈值。其次，我们还希望P（第二次匹配）/ P（第二次匹配）> =如果P（第二次匹配）阈值存在。第三，我们希望第二个数据集中的第一个匹配项与Carl McCarthy，1967年的第一个数据集中的匹配人数不超过1个。

如何确定这些阈值？

我更喜欢Stata和/或Perl中的方法。

参见，例如：

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1479910/pdf/amia2003_0259.pdf

（尽管如此，我仍然没有完全理解为什么或如何，以及输入和输出是什么，以及假设和约束的严格性）。

— 用户名
source

您是否考虑过在Stata中使用reclink？

— Dimitriy V. Masterov

4

绝对地，EM算法已用于概率链接。关于该主题的文章很多，关于理论细节，Winkler的以下文章可能会有所帮助：

http://www.census.gov.edgekey.net/srd/papers/pdf/rr2000-05.pdf

还有一些由Kevin Campbell开发的数据链接软件已经在这里可用：

http://the-link-king.com/

该软件可以免费下载，Kevin Campbell提供收费支持。该代码是用SAS编写的，因此您需要基本的SAS软件包。

— 罗伯特·F
source

谢谢！我已经阅读了Winkler的两篇论文，但并没有完全理解它们。我从那篇论文中收集了EM。另外，我也不知道如何使用SAS。我知道perl有一个我将使用的EM模块，但是我不确定为什么EM适用或如何使用它。从概念上讲，EM如何回答上述问题？

— user1690130

我的理解是，EM算法可用于对正匹配的可能性进行建模，因为它考虑了错误地链接两个不同记录或错误地不链接两个匹配记录的未知（或“潜在”）概率。这些概率的估计值在算法的每个步骤中都会细化，以使似然函数最大化。

— RobertF

我提供什么输入？单变量概率和标签？它吐出最佳匹配？

— user1690130

0

有一个软件RELAIS可以记录与以下内容的链接：

6）概率记录链接（通过EM（期望最大化）估算Fellegi和Sunter模型参数。

RELAIS已用Java和R实现，并具有数据库体系结构（MySQL）。

ESSnet数据集成项目提供了更多有关记录链接的文档。

— 德朱里奥
source