根据人口统计数据对患者进行匹配时,对于将哪些患者匹配为“相同患者”有什么建议?
我知道算法对于不同的实现会有所不同,我很好奇这个过程中是否有最佳实践或建议。
First Name
Last Name
Date of Birth
SSN
Address
City
State
Zip
等等?
根据人口统计数据对患者进行匹配时,对于将哪些患者匹配为“相同患者”有什么建议?
我知道算法对于不同的实现会有所不同,我很好奇这个过程中是否有最佳实践或建议。
First Name
Last Name
Date of Birth
SSN
Address
City
State
Zip
等等?
Answers:
有一篇很棒的文章(西班牙语,对不起),来自乌拉圭的CS工程师Pablo Pazos自2006年以来一直从事医疗保健IT领域的工作,并对该领域做出了巨大贡献,他在其中描述了一种实现此目的的算法。
您可以通过翻译来运行该文章,但要旨是,确定一个人的身份的基本信息是他们的姓名和姓氏(均来自父亲和母亲),性别和出生日期。有趣的是,他明确地从他的身份匹配算法中排除了像SSN这样的ID号,因为“任何种类的标识符都不是他的身份的一部分”(不过,我认为这一点值得商bat)。而且,他不包括街道地址,电话号码等属性。由于它们与某人的身份并没有真正的联系,因此与“某人实际上是谁”无关。
此外,他为每个以前的属性分配了不同的“权重”,如下所示:
通过在这些属性中的每一个上找到匹配项,他描述了一种获取复合“一致性匹配索引”的方法,利用该方法可以在记录之间进行比较。同样,通过使用Levenshtein's distance之类的算法,可以对名称属性进行“部分”匹配。
好的,IMO。抱歉,它是西班牙语,但我希望我能够传达其主要思想。
没有用于患者匹配的魔术算法,而且我怀疑还会有这种算法。
首先,存在区域差异。正如MMattoli指出的那样,在美国一家城市医院中行之有效的方法可能不适用于澳大利亚乡村治疗原住民的诊所。
此外,各个站点对容错性的看法也不同。如果您只有在绝对确定的情况下才进行比赛,那么您会错过很多比赛。这会导致重复的患者记录,从而带来其他一系列问题。大多数站点都愿意为肯定确定,但是如何确定足够确定?询问10个人,您将获得12个答案。
因此,“最佳”算法将是可配置的,因此您的客户可以对其进行调整以满足他们的需求。
考虑比赛时,不同的字段会提供不同的置信度。
特定于医疗保健的标识符提供了最大的信心,因为它们的整个目的是在卫生系统内唯一地识别人员。医院通常会尽力确保这些事情不会重复。
例子:
取决于系统,其他患者标识符也可以提供高置信度。例如,军事身份证在军事医院中可能非常相关。
例子:
在没有唯一标识符的情况下,必须诉诸人口统计信息。不建议在任何一个领域进行比赛,但是人口统计领域的比赛越多,比赛就越有信心。
关于一个人的常变动性很适合匹配:
但比赛中甚至可以考虑使用更具延展性的信息来增强信心:
我的想法是按以下顺序1)。SSN,姓氏以及名字2的前5个字符。SSN,生日和名字的前5个字符3)。SSN,生日和姓氏4)。SSN,性别,生日5)。姓氏,名字,城市和邮政编码的前5个字符
在美国,这是一个非常棘手的问题。名称不是唯一的,并且在一个人的一生中经常更改,或者以不同的方式显示(例如,Rob与Robert),因此,除非结合一些更切实可行的信息,否则它们永远无法用于识别患者。健康保险的号码和提供者的更换频率要高得多,并且家庭的多个成员可能相同。SSN应该是唯一的,但周围存在欺诈行为。与驾驶员的驾照号码相同,当然不是每个人都会有。
就个人而言,我将从保险单编号和出生日期与姓名组合开始,然后从ssn和出生日期与姓名组合开始。如果匹配,我会检查地址和电话给我更多的保证,但是如果不匹配,我不会给您太多的重量。另外,如果已知(我都知道医院的吸血鬼会采集血液样本),我会使用血型作为排除因素,因为这不会改变。由于名称变化问题,名称匹配必须是模糊匹配。如果名称置信度确实很高(可能是输入SSN的错字),则其他事物通常应首先寻找精确匹配,然后是模糊匹配。