为可靠的基于人口统计的患者匹配推荐的最低匹配标准是什么?


30

根据人口统计数据对患者进行匹配时,对于将哪些患者匹配为“相同患者”有什么建议?

我知道算法对于不同的实现会有所不同,我很好奇这个过程中是否有最佳实践或建议。

First Name
Last Name
Date of Birth
SSN
Address
City
State
Zip

等等?


4
这个问题的答案可能还会根据特定国家甚至种族和文化考虑而改变。例如,一个人的名字可能不是澳大利亚原住民的好患者标识符(或者在他们的情况下,应该给它一个较小的“权重”),因为他们可能会随时间改变名字。澳大利亚原住民与死者同名,因为他们认为携带死者同名是非常糟糕的。在其他文化中也发生过类似的事情,死者的名字是禁忌。链接

4
或尚未发表的研究中的另一个例子:在菲律宾移民到美国的人中,十个最普遍的姓氏约占所有人的6%。在越南移民中,他们约占60%。在菲律宾人中,地名比越南人好得多。这项研究一旦发布,我一定会发布。

只是澄清一下:匹配两组记录的主要目的是什么?

尝试匹配记录时,请确保区分匹配强度(“鲍勃”与“鲍勃”非常相似)与可能匹配的次数(鲍勃很多)之间的区别。如果两个记录具有相同的名称,并且没有其他名称相同的记录,那么即使地址不同,也可能是同一个人。当然,假设您的语料库很大。
所有行业的乔恩(Jon of All Trades)2012年

Answers:


20

一篇很棒的文章(西班牙语,对不起),来自乌拉圭的CS工程师Pablo Pazos自2006年以来一直从事医疗保健IT领域的工作,并对该领域做出了巨大贡献,他在其中描述了一种实现此目的的算法。

您可以通过翻译来运行该文章,但要旨是,确定一个人的身份的基本信息是他们的姓名和姓氏(均来自父亲和母亲),性别和出生日期。有趣的是,他明确地从他的身份匹配算法中排除了像SSN这样的ID号,因为“任何种类的标识符都不是他的身份的一部分”(不过,我认为这一点值得商bat)。而且,他不包括街道地址,电话号码等属性。由于它们与某人的身份并没有真正的联系,因此与“某人实际上是谁”无关。

此外,他为每个以前的属性分配了不同的“权重”,如下所示:

  • 名:17.5%
  • 中间名:17.5%
  • 姓(父亲):17.5%
  • 姓氏(母亲):17.5%
  • 性别:10%
  • DOB:20%

通过在这些属性中的每一个上找到匹配项,他描述了一种获取复合“一致性匹配索引”的方法,利用该方法可以在记录之间进行比较。同样,通过使用Levenshtein's distance之算法,可以对名称属性进行“部分”匹配。

好的,IMO。抱歉,它是西班牙语,但我希望我能够传达其主要思想。


2
太好了,谢谢。+1也用于提及距离,因为错别字很常见,尤其是在文化背景高度多样化的社区中,例如在北美经常发生这种情况。就是说,我必须执行匹配的大多数情况下,可能值的范围都非常有限。因此,在这些情况下,在数据库中返回单个匹配项的任何可靠标准(例如健康保险号码)就足够了,如果返回了多个条目,我倾向于询问用户(如果有)或使用其他条件进行过滤。

(...续)请注意,尽管这些案例适用于在诊所或医院在本地安装EMR,或在放射科安装RIS。在这些情况下,客户要么在诊所或医院注册,要么未在诊所注册。然而,在MPI的情况下,这是一个全新的局面。

13

没有用于患者匹配的魔术算法,而且我怀疑还会有这种算法。

首先,存在区域差异。正如MMattoli指出的那样,在美国一家城市医院中行之有效的方法可能不适用于澳大利亚乡村治疗原住民的诊所。

此外,各个站点对容错性的看法也不同。如果您只有在绝对确定的情况下才进行比赛,那么您会错过很多比赛。这会导致重复的患者记录,从而带来其他一系列问题。大多数站点都愿意为肯定确定,但是如何确定足够确定?询问10个人,您将获得12个答案。

因此,“最佳”算法将是可配置的,因此您的客户可以对其进行调整以满足他们的需求。

考虑比赛时,不同的字段会提供不同的置信度。

特定于医疗保健的标识符提供了最大的信心,因为它们的整个目的是在卫生系统内唯一地识别人员。医院通常会尽力确保这些事情不会重复。

例子:

  • 国民健康ID(例如,英国NHS编号)
  • 医院分配的病历号。

取决于系统,其他患者标识符也可以提供高置信度。例如,军事身份证在军事医院中可能非常相关。

例子:

  • 军事身份证
  • 保险编号
  • 社会安全号码(在美国,由于猖fraud的保险欺诈行为,社会安全号码通常被认为是高信任度的比赛。)

在没有唯一标识符的情况下,必须诉诸人口统计信息。不建议在任何一个领域进行比赛,但是人口统计领域的比赛越多,比赛就越有信心。

关于一个人的常变动性很适合匹配:

  • 名称
  • 性别
  • 出生日期

但比赛中甚至可以考虑使用更具延展性的信息来增强信心:

  • 地址
  • 电话号码
  • 电子邮件地址

3
SSN也有一些非常严格的限制,例如在加拿大,除非您是雇主或银行,否则甚至要求它都是违法的(也许还有更多,我不是律师)。像中国这样的其他地方,他们几乎用它来做任何事情,甚至在交通繁忙的假期里购买火车票。

如果您是女性,通常会更名。而且两个人的名字通常相同,甚至居住在同一地方(例如,父亲有一个以他的名字命名的儿子)。
HLGEM

@HLGEM:完全正确,这就是为什么不应使用单个受众特征字段进行匹配的原因。但是,当人们不得不诉诸于此时,更多的静态字段(尽管有时会更改)比其他字段更可靠。但是,这并不能使它们变得更好。
林恩(Lynn)

7

还值得检查以前的姓氏,因为这些经常更改。


+1“经常”是轻描淡写。:)对于无法识别或未命名的患者,新生儿,错误识别的患者等,当然可以是这种情况。在具有大量事务的环境中,名称更困难,但更重要。

4

除了问题中给出的以下三个明显组合之外

First Name
Last Name
Date of Birth
City
State
ZIP/Pin Code

我会考虑添加phone number (Home and/or Cell)到列表中。这些天来很普遍,每个人都有一个唯一的号码,即使有些时候人们更改了他们的电话号码,大多数人也会记住较旧的电话号码,因此可以派上用场。

我们发现地址经常遭受多种拼写和多种呈现方式的困扰,尤其是在印度这样的国家/地区,那里的人们使用当地语言,而患者管理软件仍然“使用”英语。


3

记录中的性别似乎通常来自名字。当我们无法从名字中得出性别时,我看到外国人的性别差异有所增加。

在德国,我们还有一些其他变体,其名称包含“Uölaute”(如“äöü”),有时会被“ ae oe ue”代替。


1

我的想法是按以下顺序1)。SSN,姓氏以及名字2的前5个字符。SSN,生日和名字的前5个字符3)。SSN,生日和姓氏4)。SSN,性别,生日5)。姓氏,名字,城市和邮政编码的前5个字符


1

在美国,这是一个非常棘手的问题。名称不是唯一的,并且在一个人的一生中经常更改,或者以不同的方式显示(例如,Rob与Robert),因此,除非结合一些更切实可行的信息,否则它们永远无法用于识别患者。健康保险的号码和提供者的更换频率要高得多,并且家庭的多个成员可能相同。SSN应该是唯一的,但周围存在欺诈行为。与驾驶员的驾照号码相同,当然不是每个人都会有。

就个人而言,我将从保险单编号和出生日期与姓名组合开始,然后从ssn和出生日期与姓名组合开始。如果匹配,我会检查地址和电话给我更多的保证,但是如果不匹配,我不会给您太多的重量。另外,如果已知(我都知道医院的吸血鬼会采集血液样本),我会使用血型作为排除因素,因为这不会改变。由于名称变化问题,名称匹配必须是模糊匹配。如果名称置信度确实很高(可能是输入SSN的错字),则其他事物通常应首先寻找精确匹配,然后是模糊匹配。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.