倾向得分匹配用于观察研究中的因果推理(请参阅Rosenbaum / Rubin论文)。它为何起作用的简单直觉是什么?
换句话说,为什么如果我们确定两组参加治疗的可能性相等,混杂的影响就消失了,我们可以使用结果得出关于治疗的因果结论?
倾向得分匹配用于观察研究中的因果推理(请参阅Rosenbaum / Rubin论文)。它为何起作用的简单直觉是什么?
换句话说,为什么如果我们确定两组参加治疗的可能性相等,混杂的影响就消失了,我们可以使用结果得出关于治疗的因果结论?
Answers:
我将尝试给您一个直观的理解,而很少强调数学。
观测数据和由此产生的分析的主要问题是混淆。当变量不仅影响分配的治疗,而且影响结果时,都会发生混淆。进行随机实验时,受试者会随机接受治疗,因此平均而言,分配给每种疗法的受试者在协变量(年龄,种族,性别等)方面应该相似。由于这种随机化,结果的差异不太可能(特别是在大样本中)归因于任何协变量,而是归因于所应用的治疗,因为平均而言,治疗组中的协变量相似。
另一方面,对于观察数据,没有随机的机制将受试者分配给治疗。例如,进行一项研究,以检查与标准外科手术相比,新心脏手术后患者的存活率。通常,出于道德原因,不能将患者随机分配到每种程序。结果,患者和医生通常会由于与其协变量有关的多种原因而自行选择其中一种治疗方法。例如,如果您年纪大了,新手术可能会有些冒险,结果医生可能会向年轻患者推荐更多新疗法。如果发生这种情况,并查看存活率,则新疗法可能看起来更有效,但这会产生误导,因为将年轻患者分配给该治疗,而年轻患者往往会更长寿,其他所有条件都一样。这是倾向得分派上用场的地方。
倾向得分有助于解决因果推理的基本问题-由于治疗对象的非随机性,您可能会感到困惑,这可能是您看到的“效果”的原因,而不仅仅是干预或治疗。如果您能够以某种方式修改您的分析,以使各治疗组之间的协变量(例如年龄,性别,性别,健康状况)达到“平衡”,则您将有充分的证据表明结果的差异是由于干预/治疗引起的而不是这些协变量。倾向得分可确定每个受试者在给定的观察到的共晶石的情况下被分配到他们接受的治疗的概率。如果您随后根据这些概率(倾向得分)进行匹配,
您可能会问为什么在协变量上不完全匹配(例如,确保将治疗1的40岁健康状况良好的男性与治疗2的40岁健康状况良好的男性匹配)?对于大型样本和少量协变量,这很好用,但是当样本量很小且协变量的数量甚至适中时,几乎变得不可能做(请参阅“交叉验证”维度的诅咒,了解为什么如此) 。
现在,所有这些都说明,倾向得分的致命弱点是没有观察不到混杂因素的假设。该假设表明,您没有在调整中包括任何可能造成混淆的协变量。直观地讲,这背后的原因是,如果您在创建倾向得分时没有包括混杂因素,那么如何进行调整?还存在其他假设,例如稳定的单位治疗值假设,该假设指出分配给一个受试者的治疗不会影响其他受试者的潜在结果。
从严格的意义上讲,倾向评分调整与因果推理的关系与回归建模无关。倾向评分的唯一真正区别是,与样本量可能允许纳入回归模型相比,倾向评分更易于调整以观察更多的潜在混杂因素。倾向得分调整(在大多数情况下,最好通过协变量调整完成,最好在logit PS中使用样条线)是一种数据减少技术,其减少沿一条重要轴进行-混淆。但是,它不能处理结果的异质性(敏感性偏差),因此,即使在使用倾向性时,您也必须针对重要的重要协变量进行调整(另请参阅与优势和风险比的不相容性相关的问题)。
倾向得分匹配可能会排除许多观察结果,因此效率极低。我认为排除相关观察结果的任何方法都是有问题的。匹配的真正问题在于,由于某些需要进行1:1匹配的需求,它排除了容易匹配的观测值,并且大多数匹配算法都依赖于观测顺序。
请注意,在进行标准回归调整以混淆检查和排除非重叠区域时,这非常容易。倾向得分用户被教导这样做,而回归建模者不这样做的唯一原因是他们没有被教导。
倾向评分分析隐藏了与暴露的任何相互作用,倾向评分匹配隐藏了PS与治疗效果之间的可能关系。
对于PS,已经进行了灵敏度(对于无法衡量的混杂因素)分析,但是使用标准回归模型更容易进行分析。
如果您使用灵活的回归方法估算PS(例如,不假设任何连续变量线性地起作用),您甚至不需要检查平衡- 必须有平衡,否则一开始就没有正确指定PS回归模型。您只需要检查是否没有重叠。假定没有从倾向模型中忽略的重要相互作用。匹配采用相同的假设。
我建议您查看大多数无害计量经济学-他们在直觉上对此有很好的解释。
您要解决的问题是选择偏向。如果变量与潜在结果和接受治疗的可能性相关,那么如果您发现治疗的预期结果好于未治疗的预期结果,则可能是一个虚假的发现,因为被治疗者倾向于具有更高的并因此具有更高的。出现问题是因为使与处理相关。
这个问题可以通过控制来解决。如果我们认为潜在结果与变量之间的关系是线性的,我们可以通过将包含在回归变量中进行处理来实现,而哑变量与相互作用。当然,线性回归是灵活的,因为我们也可以包含函数。但是,如果我们不想强加一个功能形式怎么办?然后我们需要使用非参数方法:匹配。
通过匹配,我们比较了具有相似处理和未处理的观测值。我们通过对所有已处理和未处理的观测值的所有值(或较小范围的值或“桶”)的处理效果进行估算来得出此结论。如果我们没有很多这样的值或存储桶,尤其是是高维向量,那么很难找到彼此接近的观测值,那么将这个空间投影到一个维上将很有帮助。
这就是倾向得分匹配的作用。如果与给定治疗不相关,那么事实证明它们也与给定治疗不相关,其中是给定的治疗概率,即倾向得分的。
这是您的直觉:如果我们发现倾向得分非常相似的子样本,则对于该子样本,已处理组和未处理组与无关。每个观察结果均可能被治疗或未治疗;这意味着任何处理过的观察都可能来自子样本中的任何值。由于是决定模型中潜在结果的因素,因此这意味着对于该子样本,潜在结果与治疗无关。此条件确保处理后和未处理之间的子样本平均结局差异是对该子样本的平均治疗效果的一致估计,即
是对当地平均治疗效果的一致估计。
进一步阅读:
它“起作用”的原因与回归“起作用”的原因相同-您要控制所有混杂因素。
您可以通过完全指定的回归模型(可能包含许多混杂变量)或仅包含一个变量的回归模型(倾向评分(可能是也可能不是由那些相同的混杂因素组成的同等复杂的模型))来完成这种分析控制。您可以坚持使用回归与倾向得分进行比较,也可以比较相似组中的响应,在相似组中,相似度由倾向得分定义。从本质上讲,您正在做相同的事情,但是有些人认为后一种方法更好地突出了手头的因果任务。
更新以下反馈
我对解释倾向得分匹配为何起作用的直觉的想法是解释倾向得分定理,即 我认为我可以使用回归来完成。但是,正如@StatsStudent所说,回归使推断数据中从未发生过的治疗和对照之间的比较变得容易。如果这就是为什么倾向得分匹配“有效”的部分原因,那么我的答案是不完整的。我咨询了反事实和因果推论